CN107895053B - 基于话题簇动量模型的新兴热点话题检测系统及方法 - Google Patents
基于话题簇动量模型的新兴热点话题检测系统及方法 Download PDFInfo
- Publication number
- CN107895053B CN107895053B CN201711330329.4A CN201711330329A CN107895053B CN 107895053 B CN107895053 B CN 107895053B CN 201711330329 A CN201711330329 A CN 201711330329A CN 107895053 B CN107895053 B CN 107895053B
- Authority
- CN
- China
- Prior art keywords
- topic
- solving
- microblog
- momentum
- emerging hot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 title claims description 21
- 230000001186 cumulative effect Effects 0.000 claims abstract description 9
- 238000013450 outlier detection Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 206010033307 Overweight Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。该系统包括:一增量聚类算法,在于聚类出各个热点话题,为加速后面的人工标注过程;一正态分布累积概率求解,在于刻画话题的质量模型;一话题增长率求解过程,在于求解话题的速度模型;动态突发关键词的重叠率,用来衡量话题的新颖性;话题重要性衡量指标,使用话题用户和重要用户重叠率来衡量,为了衡量话题重要性;一个DBSCAN离群点检测算法,为了发现异常点来表示新兴热点话题。本发明能够利用社交媒介中数据的各维度作为特征,并刻画新兴热点话题的趋势,从而检测出新兴热点话题。
Description
技术领域
本发明属于自然语言处理领域,更具体地,涉及一种针对社交媒体的动量模型的新兴热点话题检测系统及方法。
背景技术
当前,存在着一些基于关键词分布的方法,其基本思想是刻画在时间序列上词语分布的特点,寻找词频分布特征发生突变的词语。过去稀疏现在频繁出现的词语被视为新兴关键词,往往与新兴话题相关联。
当前,还存在着一些基于主题模型的方法挖掘文档与词之间的隐藏关系,能够发现强一致性的话题,并结合时序、关键词分布特征等刻画话题演变趋势,但是主题模型常需要设置话题个数,这并不适合于话题个数不定的社交媒体数据场景。
当前,还存在着一些基于聚类的新兴热点话题检测方法,在话题检测方面,聚类算法是一个有效的方法。聚类算法常基于文档相似度将与同一事件相关的文档聚成簇,每个文档簇表示一个话题。目前话题聚类方法主要从聚类的算法、相似度度量、聚类的对象以及话题簇特征进行研究。
然而,这些方法模型在不同程度上解决了上述的后两个挑战,但也有相对不足之处。基于关键词分布的方法易出现无关的错误的关键词,基于主题模型的方法相对较少地利用社交媒体的丰富特征,基于聚类的方法在聚类的准确性和话题簇特征刻画上都有需要改进的地方。针对上述的不足之处,我们在增量聚类发现话题的基础上,提出了一种使用动量思想刻画话题发展趋势特征的模型,然后探讨新兴话题的数据分布特点,分别使用有监督的分类方法和无监督的异常检测方法预测新兴话题。
发明内容
因此,本发明的目的是提出一种针对社交媒体的基于话题簇动量模型的新兴热点话题检测方法,能够从中文微博数据的各个角度有效提取特征,最终检测出新兴热点话题。
本发明采用以下技术方案:一种基于话题簇动量模型的新兴热点话题检测系统,其包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。Z-score公式:其中x是测量值,μ和S分别是所有预测值的均值和标准差。z分数是一种可以看出某分数在分布中相对位置的方法。将成正态分布的数据中的原始分数转换为z分数,就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积,进而得知原始分数在数据集合中的百分等级。
在本发明一实施例中,所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。
在本发明一实施例中,从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
本发明还提供一种基于话题簇动量模型的新兴热点话题检测方法,其包括以下步骤:步骤S1:描述数据预处理模块如何进行数据的预处理;步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;在传统TF-IDF算法中对于在某一特定文件里的词语 来说,其重要性可表示为:
上式中,|D|为语料库中的文件总数;:包含词语的文件数目,即的文件数目;如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用然后;某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,产生出高权重的TF-IDF;
步骤S3:话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势;步骤S4:给定特定时刻点的话题集,每个话题c i 在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,筛除局部密度稀疏但是并非全局密度稀疏的数据点;从而检测出新兴热点话题。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
在本发明一实施例中,步骤S1中预处理包括以下步骤:步骤S11:去除微博内容中网页链接;步骤S12:去除微博内容中的表情字符;步骤S13:去除微博内容常用词;步骤S15:过滤掉长度小于5个字符微博;步骤S16:过滤掉发表时间错误或者时间过于久远的微博;步骤S17:过滤掉缺失用户Uid的微博。
在本发明一实施例中,步骤S3包括以下具体步骤:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
与现有技术相比,本发明能够利用社交媒介中数据的各维度作为特征,并刻画新兴热点话题的趋势,从而检测出新兴热点话题。
附图说明
图l为本发明一实施例在社交媒体文档集中的新兴热点话题检测的示意配置图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步解释说明。
一种基于话题簇动量模型的新兴热点话题检测系统,其包括:一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,使用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;以及DBSCAN离群点检测算法,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。
在本发明一实施例中,所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。
在本发明一实施例中,从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
如图1所示,根据本发明实施例在社交媒体中所采用的新兴热点话题检测统包括:数据预处理模块对数据进行预先处理;话题聚类算法模块,用于对时间序列的微博进行聚类,生成话题簇;话题特征描述模块,用于对动量模型的求解,从各个方面来求解特征来求解话题动量;DBSCAN检测模块,检测新兴热点话题与非新兴热点话题的数据分布不平衡,从而检测出特征的离群点,即是新兴热点话题;结果输出模块,用于输出最终的求解新兴热点话题结果。
本发明提供一种基于话题簇动量模型的新兴热点话题检测方法,其主要包括以下步骤:步骤S1:描述数据预处理模块如何进行数据的预处理;步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;步骤S3:话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势;步骤S4:给定特定时刻点的话题集,每个话题c i 在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,筛除局部密度稀疏但是并非全局密度稀疏的数据点;从而检测出新兴热点话题。
在本发明一具体实施例中,其主要包括以下步骤:
1)数据预处理
首先,描述数据预处理模块如何进行数据的预处理。
社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声,因此对数据集进行预处理,主要进行以下几个方面的操作:
(1) 去除微博内容中网页链接。如“http://t.cn/Rfan9TD”;
(2) 去除微博内容中的表情字符。如“[偷乐]”,“[加油啊]”等;
(3) 去除微博内容常用词。如“原文转发”,“组图”等;
(4) 过滤掉长度小于5个字符微博;
(5) 过滤掉发表时间错误或者时间过于久远的微博;
(6) 过滤掉缺失用户Uid的微博;
2)话题聚类算法
其次,介绍话题聚类算法模块如何对时间序列的微博进行聚类生成话题簇。首先采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量。采用文本空间向量的余弦相似度。最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较,而不是文档和话题成员的每一个文档。这极大减少了比较次数,提高了算法执行速度。同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇。长时间未加入新文档的话题一般不可能成为新兴热点话题,所以这个过滤操作对实验结果没有影响,但是能够对后续的增量聚类和话题特征刻画的计算过程也起到了一定的加速作用。
3)话题特征描述模块
再次,简述话题特征描述模块如何计算话题簇的各个特征。本文在话题簇基础上采用动量思想综合利用微博数据多个特征方面上的增长率和变化量以刻画话题热度的变化趋势。这是由于在话题演变过程中话题相关文档集的规模变化量直接和话题的热度相关;而社交媒体多个特征方面(用户数、转发数等等)的增长率正是用户参与话题产生的。话题在 个时间窗口内的文档集规模变化量的相对程度,并使用正态分布累计概率密度表将其映射成概率值 视为质量。话题在相关特征方面的增长率视为话题在变为热门话题运动方向上的不同方面上的速度。力在不同方向上作用于物体产生了不同方向的速度;用户以发表微博、转发微博等不同方式作用于话题,产生了话题在相关微博数、用户数、转发数、微博影响力累计值这四个方向的增长率,等同于速度。动量是矢量,从矢量分解的角度来看,话题从普通话题演变为热门话题方向上的总动量(即话题趋势)也可以分解成这四个方向的分动量。计算卡方值来得到时间段内的关键词集合,然后计算话题关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖值;计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值。
4)DBSCAN检测
接着,描述DBSCAN检测如何进行离群点检测发现新兴热点话题。给定特定时刻点的话题集,k为大于1的自然数,i<k。每个话题c i 在相关用户数方面的变化趋势PTU,相关微博数方面的变化趋势PTW,相关微博被转发数方面上的变化趋势PRT,相关微博影响力累计值方面上的变化趋势PINF,话题新颖性overlapw,话题重要性overlapu,使用DBSCAN及特征对数据分布进行考察,发现离群点,往往将大量局部密度稀疏但是并非全局密度稀疏的数据点误判为新兴话题。
5)结果输出
最后,描述结果输出。根据上述各个模块的步骤过程,最终求解得到新兴热点话题集合。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种基于话题簇动量模型的新兴热点话题检测系统,其特征在于:包括:
一数据预处理模块,用于对微博文本进行预处理,有利于后阶段算法的求解;
一增量聚类算法,用于对时间序列的微博文本进行增量聚类,生成各个类簇,加速后期的一个人工标注过程;
一正态分布累积概率求解模块,用于求解话题时间窗口内的质量,适用Z-score公式来计算时间序列上各个时刻点话题相关文档变化量规模的相对程度;
一话题增长率求解模块,用于求解话题时间窗口内的速度,匹配上面的质量,进而求解话题的动量,分别计算话题中的微博数、用户数、转发数和微博影响力的四个增长率来表示话题速度;
一动态突发关键词重叠率求解模块,用于描述话题时间窗口内的关键词和当前时间段内的热点关键词的重叠率来衡量话题新颖性;
一用户重叠率求解模块,用于计算话题高权威值用户和当前时段内的高权威值用户集合的重叠率来衡量话题热度值;
以及DBSCAN离群点检测算法模块,用于发现新兴热点话题与非新兴热点话题的数据不平衡性,从而检测出新兴热点话题。
2.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:所述数据预处理模块,用于去除文本中的链接,特殊字符,表情符号及标点符号。
3.根据权利要求1所述的基于话题簇动量模型的新兴热点话题检测系统,其特征在于:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式求解最终的动量模型。
4.一种基于话题簇动量模型的新兴热点话题检测方法,其特征在于: 包括以下步骤:
步骤S1:描述数据预处理模块如何进行数据的预处理;
步骤S2:采用传统TF-IDF计算关键词的权重,并将文本转换成文本空间向量;采用文本空间向量的余弦相似度;最新文档和话题计算相似度时,使用文档和话题簇中心向量相比较;同时,在返回话题集合时之前过滤掉长时间没有加入新文档的话题簇;
步骤S3:话题簇基础上采用动量思想综合利用微博数据特征方面上的增长率和变化量以刻画话题热度的变化趋势;
5.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法,其特征在于:步骤S1中预处理包括以下步骤:
步骤S11: 去除微博内容中网页链接;
步骤S12: 去除微博内容中的表情字符;
步骤S13:去除微博内容常用词;
步骤S15: 过滤掉长度小于5个字符微博;
步骤S16: 过滤掉发表时间错误或者时间过于久远的微博;
步骤S17:过滤掉缺失用户Uid的微博。
6.根据权利要求4所述的基于话题簇动量模型的新兴热点话题检测方法,其特征在于:步骤S3包括以下具体步骤:从话题用户数、微博数、转发数和微博影响力来求解话题时间窗口内的变化来作为话题的速度;根据动量公式可以求解最终的动量模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711330329.4A CN107895053B (zh) | 2017-12-13 | 2017-12-13 | 基于话题簇动量模型的新兴热点话题检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711330329.4A CN107895053B (zh) | 2017-12-13 | 2017-12-13 | 基于话题簇动量模型的新兴热点话题检测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107895053A CN107895053A (zh) | 2018-04-10 |
CN107895053B true CN107895053B (zh) | 2021-09-24 |
Family
ID=61807342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711330329.4A Active CN107895053B (zh) | 2017-12-13 | 2017-12-13 | 基于话题簇动量模型的新兴热点话题检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107895053B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609938A (zh) * | 2019-08-15 | 2019-12-24 | 平安科技(深圳)有限公司 | 文本热点的发现方法、装置及计算机可读存储介质 |
CN112633427B (zh) * | 2021-03-15 | 2021-05-28 | 四川大学 | 一种基于离群点检测的超高次谐波发射信号检测方法 |
TWI825535B (zh) * | 2021-12-22 | 2023-12-11 | 中華電信股份有限公司 | 制定潛力熱詞度之系統、方法及電腦可讀媒介 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012929A (zh) * | 2010-11-26 | 2011-04-13 | 北京交通大学 | 网络舆情预测方法及系统 |
WO2013133966A1 (en) * | 2012-02-17 | 2013-09-12 | Bottlenose, Inc. | Natural language processing optimized for micro content |
CN104516962A (zh) * | 2014-12-18 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种微博舆情监控方法及监控系统 |
CN107193867A (zh) * | 2017-04-07 | 2017-09-22 | 广东精点数据科技股份有限公司 | 基于大数据的热点话题分析方法 |
CN107193797A (zh) * | 2017-04-26 | 2017-09-22 | 天津大学 | 中文微博的热点话题检测及趋势预测方法 |
-
2017
- 2017-12-13 CN CN201711330329.4A patent/CN107895053B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012929A (zh) * | 2010-11-26 | 2011-04-13 | 北京交通大学 | 网络舆情预测方法及系统 |
WO2013133966A1 (en) * | 2012-02-17 | 2013-09-12 | Bottlenose, Inc. | Natural language processing optimized for micro content |
CN104516962A (zh) * | 2014-12-18 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种微博舆情监控方法及监控系统 |
CN107193867A (zh) * | 2017-04-07 | 2017-09-22 | 广东精点数据科技股份有限公司 | 基于大数据的热点话题分析方法 |
CN107193797A (zh) * | 2017-04-26 | 2017-09-22 | 天津大学 | 中文微博的热点话题检测及趋势预测方法 |
Non-Patent Citations (3)
Title |
---|
User-defined hot topic detection in microblogging;Ying Chen等;《ICIMCS "13:Proceedings of the Fifth International Conference on Internet Multimedia Computing and Service》;20130831;第183-186页 * |
基于动量模型的微博突发话题检测方法;贺敏等;《计算机研究与发展》;20150515;第1022-1028页 * |
基于时间序列分析的微博突发话题检测方法;贺敏等;《通信学报》;20160325;第48-54页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107895053A (zh) | 2018-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766585B (zh) | 一种面向社交网络的特定事件抽取方法 | |
Kaleel et al. | Cluster-discovery of Twitter messages for event detection and trending | |
CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
Abdulrahman et al. | Fake news detection using machine learning and deep learning algorithms | |
Niu et al. | Sentiment classification for microblog by machine learning | |
CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
CN107895053B (zh) | 基于话题簇动量模型的新兴热点话题检测系统及方法 | |
Yan et al. | An improved single-pass algorithm for chinese microblog topic detection and tracking | |
Telnoni et al. | Comparison of machine learning classification method on text-based case in twitter | |
Lin et al. | Rumor detection with hierarchical recurrent convolutional neural network | |
Setiawan et al. | Feature expansion for sentiment analysis in twitter | |
Daouadi et al. | Organization vs. Individual: Twitter User Classification. | |
Lambers et al. | Forensic authorship attribution using compression distances to prototypes | |
Gupta et al. | Fake news detection using machine learning | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
Paudel et al. | Feature selection approach for Twitter sentiment analysis and text classification based on Chi-Square and Naïve Bayes | |
Sharma et al. | Fake news detection using deep learning | |
Mediayani et al. | Determining Trending Topics in Twitter with a Data Streaming Method in R | |
Liu et al. | An improved latent dirichlet allocation model for hot topic extraction | |
Suhasini et al. | A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data | |
Gururaj et al. | Machine learning-based approach for fake news detection | |
Kaleel et al. | Event detection and trending in multiple social networking sites | |
Ge et al. | Microblog topic mining based on a combined TF-IDF and LDA topic model | |
Wen et al. | Blockchain-based reviewer selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |