CN107193867A - 基于大数据的热点话题分析方法 - Google Patents

基于大数据的热点话题分析方法 Download PDF

Info

Publication number
CN107193867A
CN107193867A CN201710228064.0A CN201710228064A CN107193867A CN 107193867 A CN107193867 A CN 107193867A CN 201710228064 A CN201710228064 A CN 201710228064A CN 107193867 A CN107193867 A CN 107193867A
Authority
CN
China
Prior art keywords
topic
data
talked
much
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710228064.0A
Other languages
English (en)
Inventor
陈乐焱
许飞月
陶波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201710228064.0A priority Critical patent/CN107193867A/zh
Publication of CN107193867A publication Critical patent/CN107193867A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于大数据的热点话题分析方法,包括以下步骤:步骤一:热点话题数据收集;步骤二:热点话题数据预处理;利用Canopy算法计算得到各个热点话题数据的关键项的初始中心个数K;步骤四:利用K‑means算法对数据进行聚类分析,最终聚类结果所得到的类即确定为话题;步骤五:对步骤四中分好的各类话题进行话题热度分析;话题热度的主要参考指标为报道频率、报道持续天数、搜索量、点击量、评论量以及点赞量。本申请能够快速进行话题热度分析。

Description

基于大数据的热点话题分析方法
技术领域
本发明涉及评估分析领域,具体涉及一种基于大数据的热点话题分析方法。
背景技术
伴随着互联网技术的快速发展,信息量以指数形式迅猛增长。新闻消息由静态输出和被动获取转变为人人可以参与讨论、传播的新方式,在微博、知乎、instagram等平台,人们可以随意获取以及传播自己感兴趣的内容,在这个信息时代,任何一个人的想法都可能被大众广泛的感知,从而形成一个新话题的产生,引发更多人的关注,热点话题也从众多话题中脱颖而出,由于讨论度高的话题会被各个平台推送,因此也可以吸引更多人的注意,也从侧面反映了人们在现阶段关注的话题,另一方面,人们在互动平台上所表现出来的民情以及民意都对社会发展有重大的研究和参考价值。
各个媒体、商家以及政府只有了解到民众所关注的话题,才能掌握大众的需求以及舆论导向,针对热点问题采取相应的措施。在这个信息爆炸的数字时代,如何在众多话题中发现最有价值的热点话题也成为一个值得关注的方面,现如今热点话题和热点事件的发现和提取已成为有关话题检测与跟踪研究的分支之一,在大数据话题研究方面也有越来越多的身影。
21世纪,随着网络的快速发展,数据量也随之增长。数据量的增长则意味着进入了大数据时代。现有的技术中有关大数据的处理是基于Hadoop的平台。Hadoop是一个开源分布式计算平台,核心包括HDFS,其优点是允许用户将Hadoop平台部署在低廉的硬件上,搭建分布式集群,构建分布式系统;HBase则是建立在分布式文件系统HDFS之上的分布式数据库系统,主要功能是存储非结构化和半结构化的松散数据。
现在要对存储在HBase上的松散数据进行热点话题的聚类分析,现有的聚类分析方法为采用层次聚类和K-means聚类算法相结合的方法,这种算法在使用上必须先确定聚类中心的个数K的大小,但在实际情况中,对话题进行抽取分类时预先不能确定K值的大小,这种情况会导致聚类结果产生较大偏差,误差相对来说比较大,并且由于层次聚类算法使用的是“贪心算法”,缺点是计算量比较大,这样不可避免的会降低运算速度。
因此,现在急需提供一种运算速度快的基于大数据的热点话题分析方法。
发明内容
本发明意在提供一种基于大数据的热点话题分析方法,以解决现有分析方法速度慢的问题。
为解决以上问题提供如下方案:
方案一:本方案中的基于大数据的热点话题分析方法,包括以下步骤:
步骤一:热点话题数据收集;
步骤二:热点话题数据预处理:对步骤一所收集的数据进行干扰信息排除,提取文本数据中的关键项;每一个关键项对应一个用来表示在文档中作用程度的质量值Q:
其中,N表示文档的总数,fn表示文档的关键项在文档n中出现的次数,l表示关键内容的长度;
设定一个标准值Qs,当Q>Qs时,该关键项保留,当Q<Qs时,该关键项删除。
步骤三:利用Canopy算法计算得到各个热点话题数据的关键项的初始中心个数K;
步骤四:利用K-means算法对数据进行聚类分析,最终聚类结果所得到的类即确定为话题;
步骤五:对步骤四中分好的各类话题进行话题热度分析;话题热度的主要参考指标为报道频率、报道持续天数、搜索量、点击量、评论量以及点赞量;话题热度计算公式可以表示为:
H=a1·H1+a2·H2+a3·H3+a4·H4+a5·H5+a6·H6
H表示话题的热度,H1代表话题的报道频率,H2代表话题的报道天数,H3代表话题的搜索量,H4代表话题的点击量,H5代表话题的评论量,H6则代表话题的点赞数,a1~a6则分别代表各个参考指标在话题热度分析中所占的比重系数。
有益效果:
本发明是一种基于大数据的热点话题分析方法。该分析方法主要采用了Canopy和K-means相结合的聚类分析法对所有的数据文档进行话题分类,既保证了话题分类的精确度又提升了速度,在热点话题分析中有良好的应用。对热点话题进行分析和提取,可以使各大媒体、商家以及政府迅速掌握人民群众的思想动态,从而使媒体确定自己报道的哪些内容能够吸引人们的注意力,使商家可以根据民众所需进行设计生产进而实现利益最大化,使政府在人民群众的讨论中进行反思和改革,有利于国家的建设与发展。
方案二:步骤一中对热点话题数据的抽取是基于分布式云计算平台通过网络爬虫来实现的,对收集的数据进行存储则是在基于HDFS的分布式存储设备。
HDFS具有众多优点(主要包括高容错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式系统。HBase(Hadoop DataBase,Hadoop数据库)是建立在分布式文件系统HDFS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构化和半结构化的松散数据。将收集的数据存储在基于HDFS的分布式存储设备中,有利于更快地进行数据存储。
方案三:步骤二中的干扰信息包括图片、视频、表情以及标点符号。
方案四:步骤三中用Canopy算法计算时以质量值作为计算对象确定各个类的初始中心点,对于canopy算法的距离值参数T1和T2,T1、T2的初始值可以根据用户的需要设定,或者使用交叉验证获得。
T1、T2的初始值设定对聚类中心的个数K有较大影响,直接通过用户的需求设定,可以使整个计算更加满足客户实际需求。也可以通过交叉验证获得T1、T2的初始值,得到一个根据当前收集到的热点话题数据得出一个合适的参数初始值。
方案五:步骤四中利用K-means算法对数据进行聚类分析,包括以下步骤:
步骤一,通过Canopy算法确定聚类中心的个数K;
步骤二,从所收集的文档随机选取K个文档作为K-means算法的初始聚类中心;
步骤三,对剩余的每个文档测量其到每个聚类中心的距离,并把它归到最近的聚类中心所代表的的类;
步骤四,重新计算已经得到的各个类的聚类中心;
步骤五,迭代步骤三至步骤四的步骤,直至新的聚类中心与原聚类中心相等或小于指定值。
迭代直至新的聚类中心与原聚类中心相等或小于指定值,将各类文档进行归类,确定它所在的类(也就是他属于哪个话题)。
附图说明
图1是基于大数据的热点话题分析的流程图。
图2是数据分类时采用的算法流程框图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细的说明:
说明书附图中的附图标记包括:数据收集10、数据预处理20、数据分类30、话题热度分析40。
如附图1所示,本发明的主要步骤分为4步:数据收集,数据预处理,数据分类和话题热度分析。
数据收集的方法主要是通过网络爬虫来实现,爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份,下载范围可以是微博、知乎、instagram、各大网站的推送等等。
对收集的数据则是在基于HDFS的分布式存储设备进行存储。
数据预处理的主要目的是排除非文字类的不必要信息的干扰,在一篇文档中如果出现图片、表情、视频以及用标点符号所表示的网络字符,则应把它所表达的情感进行人工标注,将其添加入文档信息。排除非文字类信息的影响之后,人工提取文本数据中的关键项,利用相关公式计算关键项的质量值,也就是它在文档中的质量程度,计算公式如下所示:
上式中,N表示收集数据的文档总数,fn表示文档的关键项在第n篇文档中出现的次数,l表示关键内容的长度,即关键项的长度。
根据统计,设定一个标准值Qs,当Q>Qs时,该关键项保留,即所选取的关键项可以代表本篇文档的讨论内容,在文档中的质量程度较高,而当Q<Qs时则代表所选取的关键项不是该文档的讨论内容。
在数据预处理之后,对数据进行分类,将提取出的各个关键项分到一个大的类中,也就是话题。在数据欲处理之后可以获取每篇新闻报道或者讨论的关键项,首先通过Canopy算法对关键项进行“粗”聚类分析确定聚类中心的个数K,具体算法的步骤如下
(1)将收集的所有数据记为总集合S,确定两个阈值T1和T2,且T1>T2(T1、T2的设定可以根据用户的需要,或者使用交叉验证获得);如,根据用户希望某一类(话题)中各个文档的相关程度的高低来确定,如果希望对话题进行细分,则可设T1的值较小;如果只是对话题进行简单粗略地分,可设T1的值设较小。具体将值设为多少代表相关度是高或是低,则是在用这个方法对热点话题分析多次之后,通过实验数据来确定。
(2)在S中任取一个文档记为样本点p,计算p与文档中其它样本数据向量之间的距离d;
(3)把d小于T1的文档划到一个Canopy中,如果没有Canopy则选择这个点为一个Canopy的中心;
(4)把d小于T2的从数据从集合S中移除,这个点以后做不了其他的Canopy的中心了;
(5)重复(2)~(4)步,直至数据集合S为空。
此时Canopy的数目为聚类中心的个数K。
接下来利用K-means算法对数据进行“精”聚类分析,具体的算法步骤如下:
(1)从所收集的文档随机选取K个文档作为K-means算法的初始聚类中心;
(2)对剩余的每个文档测量其到每个聚类中心的距离,并把它归到最近的聚类中心所代表的的类;
(3)重新计算已经得到的各个类的聚类中心;
(4)迭代(2)~(3)步,直至新的聚类中心与原聚类中心相等或小于指定值。
最终聚类结果所得到的类即确定为话题。
最后一步是对话题进行热度分析,话题热度的主要参考指标为报道频率、报道持续天数、搜索量、点击量、评论量以及点赞量。话题热度计算公式可以表示为:
H=a1·H1+a2·H2+a3·H3+a4·H4+a5·H5+a6·H6
H表示话题的热度,H1代表话题的报道频率,H2代表话题的报道天数,话题被报道的越多,持续天数越长,则从侧面反映出公众对该话题的关注程度;H3代表话题的搜索量,H4代表话题的点击量,
搜索量表示公众对该话题自己想要了解的程度,更强调主观性,点击量则是在话题被给出以后公众想要对它的了解程度;H5代表话题的评论量,H6则代表话题的点赞数,这两个数据表现出公众对该话题的参与度。a1~a6则分别代表各个参考指标在话题热度分析中所占的比重系数,分析人可以根据自己对某一方面的看重程度来设定具体的数值,关注度越高的,比重系数越大。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (5)

1.基于大数据的热点话题分析方法,其特征在于:包括以下步骤:
步骤一:热点话题数据收集;
步骤二:热点话题数据预处理:对步骤一所收集的数据进行干扰信息排出,提取文本数据中的关键项;每一个关键项对应一个用来表示在文档中作用程度的质量值Q:
<mrow> <mi>Q</mi> <mo>=</mo> <mi>l</mi> <mo>&amp;lsqb;</mo> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <msub> <mi>f</mi> <mi>n</mi> </msub> <mn>2</mn> </msup> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <msup> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>f</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&amp;rsqb;</mo> </mrow>
其中,N表示文档的总数,fn表示文档的关键项在文档n中出现的次数,l表示关键内容的长度;
设定一个标准值Qs,当Q>Qs时,该关键项保留,当Q<Qs时,该关键项删除;
步骤三:利用Canopy算法计算得到各个热点话题数据的关键项的初始中心个数K;
步骤四:利用K-means算法对数据进行聚类分析,最终聚类结果所得到的类即确定为话题;
步骤五:对步骤四中分好的各类话题进行话题热度分析;话题热度的主要参考指标为报道频率、报道持续天数、搜索量、点击量、评论量以及点赞量;话题热度计算公式可以表示为:
H=a1·H1+a2·H2+a3·H3+a4·H4+a5·H5+a6·H6
H表示话题的热度,H1代表话题的报道频率,H2代表话题的报道天数,H3代表话题的搜索量,H4代表话题的点击量,H5代表话题的评论量,H6则代表话题的点赞数,a1~a6则分别代表各个参考指标在话题热度分析中所占的比重系数。
2.根据权利要求1所述的基于大数据的热点话题分析方法,其特征在于:步骤一中对热点话题数据的抽取是基于分布式云计算平台通过网络爬虫来实现的,对收集的数据进行存储则是在基于HDFS的分布式存储设备。
3.根据权利要求1所述的基于大数据的热点话题分析方法,其特征在于:步骤二中的干扰信息包括图片、视频、表情以及标点符号。
4.根据权利要求1所述的基于大数据的热点话题分析方法,其特征在于:步骤三中用Canopy算法计算时以质量值作为计算对象确定各个类的初始中心点,对于canopy算法的距离值参数T1和T2,T1、T2的初始值可以根据用户的需要设定,或者使用交叉验证获得。
5.根据权利要求1所述的基于大数据的热点话题分析方法,其特征在于:步骤四中利用K-means算法对数据进行聚类分析,包括以下步骤:
步骤一,通过Canopy算法确定聚类中心的个数K;
步骤二,从所收集的文档随机选取K个文档作为K-means算法的初始聚类中心;
步骤三,对剩余的每个文档测量其到每个聚类中心的距离,并把它归到最近的聚类中心所代表的的类;
步骤四,重新计算已经得到的各个类的聚类中心;
步骤五,迭代步骤三至步骤四的步骤,直至新的聚类中心与原聚类中心相等或小于指定值。
CN201710228064.0A 2017-04-07 2017-04-07 基于大数据的热点话题分析方法 Pending CN107193867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710228064.0A CN107193867A (zh) 2017-04-07 2017-04-07 基于大数据的热点话题分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710228064.0A CN107193867A (zh) 2017-04-07 2017-04-07 基于大数据的热点话题分析方法

Publications (1)

Publication Number Publication Date
CN107193867A true CN107193867A (zh) 2017-09-22

Family

ID=59871972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710228064.0A Pending CN107193867A (zh) 2017-04-07 2017-04-07 基于大数据的热点话题分析方法

Country Status (1)

Country Link
CN (1) CN107193867A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895053A (zh) * 2017-12-13 2018-04-10 福州大学 基于话题簇动量模型的新兴热点话题检测系统及方法
CN108763337A (zh) * 2018-05-14 2018-11-06 苏州闻道网络科技股份有限公司 用于确定影响力指数的方法及其装置
CN108763429A (zh) * 2018-05-24 2018-11-06 成都睿码科技有限责任公司 一种模拟细胞繁殖的新闻事件发展趋势的二维展示方法
CN109284432A (zh) * 2018-08-22 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于大数据平台的网络舆情分析系统
CN110134688A (zh) * 2019-05-14 2019-08-16 北京科技大学 一种在线社交网络中热点事件数据存储管理方法及系统
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111343467A (zh) * 2020-02-10 2020-06-26 腾讯科技(深圳)有限公司 一种直播数据处理方法、装置、电子设备及存储介质
CN111597236A (zh) * 2020-05-22 2020-08-28 中国工商银行股份有限公司 制度信息处理方法、装置和计算机系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598632A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 热点事件检测方法和装置
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN105183765A (zh) * 2015-07-30 2015-12-23 成都鼎智汇科技有限公司 一种基于大数据的话题抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN104598632A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 热点事件检测方法和装置
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN105183765A (zh) * 2015-07-30 2015-12-23 成都鼎智汇科技有限公司 一种基于大数据的话题抽取方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895053A (zh) * 2017-12-13 2018-04-10 福州大学 基于话题簇动量模型的新兴热点话题检测系统及方法
CN107895053B (zh) * 2017-12-13 2021-09-24 福州大学 基于话题簇动量模型的新兴热点话题检测系统及方法
CN108763337A (zh) * 2018-05-14 2018-11-06 苏州闻道网络科技股份有限公司 用于确定影响力指数的方法及其装置
CN108763429A (zh) * 2018-05-24 2018-11-06 成都睿码科技有限责任公司 一种模拟细胞繁殖的新闻事件发展趋势的二维展示方法
CN108763429B (zh) * 2018-05-24 2022-03-29 成都睿码科技有限责任公司 一种模拟细胞繁殖的新闻事件发展趋势的二维展示方法
CN109284432A (zh) * 2018-08-22 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于大数据平台的网络舆情分析系统
CN111309999A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN111309999B (zh) * 2018-12-11 2023-05-16 阿里巴巴集团控股有限公司 一种互动场景内容的生成方法及装置
CN110134688A (zh) * 2019-05-14 2019-08-16 北京科技大学 一种在线社交网络中热点事件数据存储管理方法及系统
CN110134688B (zh) * 2019-05-14 2021-06-01 北京科技大学 一种在线社交网络中热点事件数据存储管理方法及系统
CN111343467A (zh) * 2020-02-10 2020-06-26 腾讯科技(深圳)有限公司 一种直播数据处理方法、装置、电子设备及存储介质
CN111597236A (zh) * 2020-05-22 2020-08-28 中国工商银行股份有限公司 制度信息处理方法、装置和计算机系统

Similar Documents

Publication Publication Date Title
CN107193867A (zh) 基于大数据的热点话题分析方法
Zhu et al. Hot topic detection based on a refined TF-IDF algorithm
Lin et al. Smoothing techniques for adaptive online language models: topic tracking in tweet streams
Ratkiewicz et al. Detecting and tracking the spread of astroturf memes in microblog streams
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
CN103745000A (zh) 一种中文微博客的热点话题检测方法
CN101620596A (zh) 一种面向查询的多文档自动摘要方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
lvaro Cuesta et al. A Framework for massive Twitter data extraction and analysis
Ting Web mining techniques for on-line social networks analysis
CN107203513A (zh) 基于概率模型的微博文本数据细粒度话题演化分析方法
CN105869058A (zh) 一种多层潜变量模型用户画像提取的方法
CN114881041A (zh) 微博大数据热点话题多维度智能提取系统
Daouadi et al. Organization vs. Individual: Twitter User Classification.
Jing et al. Identification of microblog opinion leader based on user feature and interaction network
CN106874260A (zh) 一种基于用户词典的网络社交文本大数据处理方法及系统
CN106777395A (zh) 一种基于社区文本数据的话题发现系统
Padmaja et al. Probabilistic topic modeling and its variants: a survey
JP4359075B2 (ja) 概念抽出システム、概念抽出方法、概念抽出プログラム及び記憶媒体
Bhakdisuparit et al. Understanding and clustering hashtags according to their word distributions
Yu et al. Mining hidden interests from twitter based on word similarity and social relationship for OLAP
Uchida et al. Evaluation of retweet clustering method classification method using retweets on Twitter without text data
Sun et al. Big data analysis on social networking
Amati et al. Twitter: temporal events analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922

RJ01 Rejection of invention patent application after publication