CN107895053B - 基于话题簇动量模型的新兴热点话题检测系统及方法 - Google Patents

基于话题簇动量模型的新兴热点话题检测系统及方法 Download PDF

Info

Publication number
CN107895053B
CN107895053B CN201711330329.4A CN201711330329A CN107895053B CN 107895053 B CN107895053 B CN 107895053B CN 201711330329 A CN201711330329 A CN 201711330329A CN 107895053 B CN107895053 B CN 107895053B
Authority
CN
China
Prior art keywords
topic
solving
microblog
momentum
emerging hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711330329.4A
Other languages
English (en)
Other versions
CN107895053A (zh
Inventor
廖祥文
陈国龙
黄海平
杨定达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201711330329.4A priority Critical patent/CN107895053B/zh
Publication of CN107895053A publication Critical patent/CN107895053A/zh
Application granted granted Critical
Publication of CN107895053B publication Critical patent/CN107895053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。该系统包括:一增量聚类算法,在于聚类出各个热点话题,为加速后面的人工标注过程;一正态分布累积概率求解,在于刻画话题的质量模型;一话题增长率求解过程,在于求解话题的速度模型;动态突发关键词的重叠率,用来衡量话题的新颖性;话题重要性衡量指标,使用话题用户和重要用户重叠率来衡量,为了衡量话题重要性;一个DBSCAN离群点检测算法,为了发现异常点来表示新兴热点话题。本发明能够利用社交媒介中数据的各维度作为特征,并刻画新兴热点话题的趋势,从而检测出新兴热点话题。

Description

基于话题簇动量模型的新兴热点话题检测系统及方法
技术领域
本发明属于自然语言处理领域,更具体地,涉及一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。
背景技术
当前,存在着一些基于关键词分布的方法,其基本思想是刻画在时间序列上词语分布的特点,寻找词频分布特征发生突变的词语。过去稀疏现在频繁出现的词语被视为新兴关键词,往往与新兴话题相关联。
当前,还存在着一些基于主题模型的方法挖掘文档与词之间的隐藏关系,能够发现强一致性的话题,并结合时序、关键词分布特征等刻画话题演变趋势,但是主题模型常需要设置话题个数,这并不适合于话题个数不定的社交媒体数据场景。
当前,还存在着一些基于聚类的新兴热点话题检测方法,在话题检测方面,聚类算法是一个有效的方法。聚类算法常基于文档相似度将与同一事件相关的文档聚成簇,每个文档簇表示一个话题。目前话题聚类方法主要从聚类的算法、相似度度量、聚类的对象以及话题簇特征进行研究。
然而,这些方法模型在不同程度上解决了上述的后两个挑战,但也有相对不足之处。基于关键词分布的方法易出现无关的错误的关键词,基于主题模型的方法相对较少地利用社交媒体的丰富特征,基于聚类的方法在聚类的准确性和话题簇特征刻画上都有需要改进的地方。针对上述的不足之处,我们在增量聚类发现话题的基础上,提出了一种使用动量思想刻画话题发展趋势特征的模型,然后探讨新兴话题的数据分布特点,分别使用有监督的分类方法和无监督的异常检测方法预测新兴话题。
发明内容
因此,本发明的目的是提出一种针对社交媒体的基于话题簇动量模型的新兴热点话题检测方法,能够从中文微博数据的各个角度有效提取特征,最终检测出新兴热点话题。
本发明采用以下技术方案:一种基于话题簇动量模型的新兴热点话题检测系统,其包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。Z-score公式:
Figure 894283DEST_PATH_IMAGE001
其中x是测量值,μ和S分别是所有预测值的均值和标准差。z分数是一种可以看出某分数在分布中相对位置的方法。将成正态分布的数据中的原始分数转换为z分数,就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积,进而得知原始分数在数据集合中的百分等级。
在本发明一实施例中,所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。
在本发明一实施例中,从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
本发明还提供一种基于话题簇动量模型的新兴热点话题检测方法,其包括以下步骤:步骤S1:描述数据预处理模块如何进行数据的预处理;步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;在传统TF-IDF算法中对于在某一特定文件里的词语
Figure 936058DEST_PATH_IMAGE002
来说,其重要性可表示为:
Figure 344823DEST_PATH_IMAGE003
以上式子中tfij为词语
Figure 677716DEST_PATH_IMAGE002
出现的频率;
Figure 52940DEST_PATH_IMAGE004
是该词在文件
Figure 36DEST_PATH_IMAGE005
中的出现次数,而分母则是在文件
Figure 627589DEST_PATH_IMAGE005
中所有字词的出现次数之和;某一特定词语
Figure 482281DEST_PATH_IMAGE002
的IDF,由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:
Figure 557685DEST_PATH_IMAGE006
上式中,|D|为语料库中的文件总数;
Figure 801033DEST_PATH_IMAGE007
:包含词语
Figure 742313DEST_PATH_IMAGE002
的文件数目,即
Figure 417008DEST_PATH_IMAGE008
的文件数目;如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用
Figure 783136DEST_PATH_IMAGE009
然后
Figure 868773DEST_PATH_IMAGE010
;某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,产生出高权重的TF-IDF;
步骤S3:话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势;步骤S4:给定特定时刻点的话题集
Figure DEST_PATH_IMAGE011
,每个话题c i 在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,筛除局部密度稀疏但是并非全局密度稀疏的数据点;从而检测出新兴热点话题。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
在本发明一实施例中,步骤S1中预处理包括以下步骤:步骤S11:去除微博内容中网页链接;步骤S12:去除微博内容中的表情字符;步骤S13:去除微博内容常用词;步骤S15:过滤掉长度小于5个字符微博;步骤S16:过滤掉发表时间错误或者时间过于久远的微博;步骤S17:过滤掉缺失用户Uid的微博。
在本发明一实施例中,步骤S3包括以下具体步骤:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
与现有技术相比,本发明能够利用社交媒介中数据的各维度作为特征,并刻画新兴热点话题的趋势,从而检测出新兴热点话题。
附图说明
图l为本发明一实施例在社交媒体文档集中的新兴热点话题检测的示意配置图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步解释说明。
一种基于话题簇动量模型的新兴热点话题检测系统,其包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。
在本发明一实施例中,所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。
在本发明一实施例中,从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
如图1所示,根据本发明实施例在社交媒体中所采用的新兴热点话题检测统包括:数据预处理模块对数据进行预先处理;话题聚类算法模块,用于对时间序列的微博进行聚类,生成话题簇;话题特征描述模块,用于对动量模型的求解,从各个方面来求解特征来求解话题动量;DBSCAN检测模块,检测新兴热点话题与非新兴热点话题的数据分布不平衡,从而检测出特征的离群点,即是新兴热点话题;结果输出模块,用于输出最终的求解新兴热点话题结果。
本发明提供一种基于话题簇动量模型的新兴热点话题检测方法,其主要包括以下步骤:步骤S1:描述数据预处理模块如何进行数据的预处理;步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;步骤S3:话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势;步骤S4:给定特定时刻点的话题集
Figure 736497DEST_PATH_IMAGE011
,每个话题c i 在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,筛除局部密度稀疏但是并非全局密度稀疏的数据点;从而检测出新兴热点话题。
在本发明一具体实施例中,其主要包括以下步骤:
1)数据预处理
首先,描述数据预处理模块如何进行数据的预处理。
社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声,因此对数据集进行预处理,主要进行以下几个方面的操作:
(1) 去除微博内容中网页链接。如“http://t.cn/Rfan9TD”;
(2) 去除微博内容中的表情字符。如“[偷乐]”,“[加油啊]”等;
(3) 去除微博内容常用词。如“原文转发”,“组图”等;
(4) 过滤掉长度小于5个字符微博;
(5) 过滤掉发表时间错误或者时间过于久远的微博;
(6) 过滤掉缺失用户Uid的微博;
2)话题聚类算法
其次,介绍话题聚类算法模块如何对时间序列的微博进行聚类生成话题簇。首先采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量。采用文本空间向量的余弦相似度。最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较,而不是文档和话题成员的每一个文档。这极大减少了比较次数,提高了算法执行速度。同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇。长时间未加入新文档的话题一般不可能成为新兴热点话题,所以这个过滤操作对实验结果没有影响,但是能够对后续的增量聚类和话题特征刻画的计算过程也起到了一定的加速作用。
3)话题特征描述模块
再次,简述话题特征描述模块如何计算话题簇的各个特征。本文在话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势。这是由于在话题演变过程中话题相关文档集的规模变化量直接和话题的热度相关;而社交媒体多个特征方面(用户数、转发数等等)的增长率正是用户参与话题产生的。话题在 个时间窗口内的文档集规模变化量的相对程度,并使用正态分布累计概率密度表将其映射成概率值 视为质量。话题在相关特征方面的增长率视为话题在变为热门话题运动方向上的不同方面上的速度。力在不同方向上作用于物体产生了不同方向的速度;用户以发表微博、转发微博等不同方式作用于话题,产生了话题在相关微博数、用户数、转发数、微博影响力累计值这四个方向的增长率,等同于速度。动量是矢量,从矢量分解的角度来看,话题从普通话题演变为热门话题方向上的总动量(即话题趋势)也可以分解成这四个方向的分动量。计算卡方值来得到时间段内的关键词集合,然后计算话题关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖值;计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值。
4)DBSCAN检测
接着,描述DBSCAN检测如何进行离群点检测发现新兴热点话题。给定特定时刻点的话题集
Figure 198571DEST_PATH_IMAGE011
,k为大于1的自然数,i<k。每个话题c i 在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,往往将大量局部密度稀疏但是并非全局密度稀疏的数据点误判为新兴话题。
5)结果输出
最后,描述结果输出。根据上述各个模块的步骤过程,最终求解得到新兴热点话题集合。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种基于话题簇动量模型的新兴热点话题检测系统,其特征在于:包括:
一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;
一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;
一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,适用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;
一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;
一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;
一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;
以及DBSCAN离群点检测算法模块,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。
2.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。
3.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式求解最终的动量模型。
4.一种基于话题簇动量模型的新兴热点话题检测方法,其特征在于: 包括以下步骤:
步骤S1:描述数据预处理模块如何进行数据的预处理;
步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;
步骤S3:话题簇基础上采用动量思想综合利用微博数据特征方面上的增长率和变化量以刻画话题热度的变化趋势;
步骤S4:给定特定时刻点的话题集
Figure DEST_PATH_IMAGE001
,每个话题c i 在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,筛除局部密度稀疏但是并非全局密度稀疏的数据点;从而检测出新兴热点话题。
5.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法,其特征在于:步骤S1中预处理包括以下步骤:
步骤S11: 去除微博内容中网页链接;
步骤S12: 去除微博内容中的表情字符;
步骤S13:去除微博内容常用词;
步骤S15: 过滤掉长度小于5个字符微博;
步骤S16: 过滤掉发表时间错误或者时间过于久远的微博;
步骤S17:过滤掉缺失用户Uid的微博。
6.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法,其特征在于:步骤S3包括以下具体步骤:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
CN201711330329.4A 2017-12-13 2017-12-13 基于话题簇动量模型的新兴热点话题检测系统及方法 Active CN107895053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711330329.4A CN107895053B (zh) 2017-12-13 2017-12-13 基于话题簇动量模型的新兴热点话题检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711330329.4A CN107895053B (zh) 2017-12-13 2017-12-13 基于话题簇动量模型的新兴热点话题检测系统及方法

Publications (2)

Publication Number Publication Date
CN107895053A CN107895053A (zh) 2018-04-10
CN107895053B true CN107895053B (zh) 2021-09-24

Family

ID=61807342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711330329.4A Active CN107895053B (zh) 2017-12-13 2017-12-13 基于话题簇动量模型的新兴热点话题检测系统及方法

Country Status (1)

Country Link
CN (1) CN107895053B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN112633427B (zh) * 2021-03-15 2021-05-28 四川大学 一种基于离群点检测的超高次谐波发射信号检测方法
TWI825535B (zh) * 2021-12-22 2023-12-11 中華電信股份有限公司 制定潛力熱詞度之系統、方法及電腦可讀媒介

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012929A (zh) * 2010-11-26 2011-04-13 北京交通大学 网络舆情预测方法及系统
WO2013133966A1 (en) * 2012-02-17 2013-09-12 Bottlenose, Inc. Natural language processing optimized for micro content
CN104516962A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博舆情监控方法及监控系统
CN107193867A (zh) * 2017-04-07 2017-09-22 广东精点数据科技股份有限公司 基于大数据的热点话题分析方法
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012929A (zh) * 2010-11-26 2011-04-13 北京交通大学 网络舆情预测方法及系统
WO2013133966A1 (en) * 2012-02-17 2013-09-12 Bottlenose, Inc. Natural language processing optimized for micro content
CN104516962A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种微博舆情监控方法及监控系统
CN107193867A (zh) * 2017-04-07 2017-09-22 广东精点数据科技股份有限公司 基于大数据的热点话题分析方法
CN107193797A (zh) * 2017-04-26 2017-09-22 天津大学 中文微博的热点话题检测及趋势预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
User-defined hot topic detection in microblogging;Ying Chen等;《ICIMCS "13:Proceedings of the Fifth International Conference on Internet Multimedia Computing and Service》;20130831;第183-186页 *
基于动量模型的微博突发话题检测方法;贺敏等;《计算机研究与发展》;20150515;第1022-1028页 *
基于时间序列分析的微博突发话题检测方法;贺敏等;《通信学报》;20160325;第48-54页 *

Also Published As

Publication number Publication date
CN107895053A (zh) 2018-04-10

Similar Documents

Publication Publication Date Title
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
Kaleel et al. Cluster-discovery of Twitter messages for event detection and trending
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
Abdulrahman et al. Fake news detection using machine learning and deep learning algorithms
Niu et al. Sentiment classification for microblog by machine learning
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
CN107895053B (zh) 基于话题簇动量模型的新兴热点话题检测系统及方法
Yan et al. An improved single-pass algorithm for chinese microblog topic detection and tracking
Telnoni et al. Comparison of machine learning classification method on text-based case in twitter
Lin et al. Rumor detection with hierarchical recurrent convolutional neural network
Setiawan et al. Feature expansion for sentiment analysis in twitter
Daouadi et al. Organization vs. Individual: Twitter User Classification.
Lambers et al. Forensic authorship attribution using compression distances to prototypes
Gupta et al. Fake news detection using machine learning
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Paudel et al. Feature selection approach for Twitter sentiment analysis and text classification based on Chi-Square and Naïve Bayes
Sharma et al. Fake news detection using deep learning
Mediayani et al. Determining Trending Topics in Twitter with a Data Streaming Method in R
Liu et al. An improved latent dirichlet allocation model for hot topic extraction
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
Gururaj et al. Machine learning-based approach for fake news detection
Kaleel et al. Event detection and trending in multiple social networking sites
Ge et al. Microblog topic mining based on a combined TF-IDF and LDA topic model
Wen et al. Blockchain-based reviewer selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant