CN112527960A - 基于关键词聚类的突发事件检测方法 - Google Patents
基于关键词聚类的突发事件检测方法 Download PDFInfo
- Publication number
- CN112527960A CN112527960A CN202011498455.2A CN202011498455A CN112527960A CN 112527960 A CN112527960 A CN 112527960A CN 202011498455 A CN202011498455 A CN 202011498455A CN 112527960 A CN112527960 A CN 112527960A
- Authority
- CN
- China
- Prior art keywords
- text
- burst
- phrase
- phrases
- time window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract description 3
- 230000006855 networking Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词聚类的突发事件检测方法,收集预设时间窗口内在社交媒体中发布的各个文本数据并过滤,根据参考短语库得到保留文本的短语集合并筛选得到突发短语,对突发短语进行聚类得到突发短语簇,每个突发短语簇即为时间窗口内的一个突发事件,然后从保留文本集合中获取该突发短语簇对应的文本集合作为预训练语言模型的输入,将预训练语言模型输出的该文本集合的摘要作为突发短语簇所对应突发事件的事件总结,得到事件检测结果。本发明针对社交网络文本数据设计了一套完整并且高效的突发事件检测流程,实现对由社交媒体产生的短文本数据进行高效精确的突发事件检测。
Description
技术领域
本发明属于短文本事件检测技术领域,更为具体地讲,涉及一种基于关键词聚类的突发事件检测方法。
背景技术
近些年来,诸如推特、微博等社交网络平台迅速发展,用户可以在这些平台上分享日常生活或者局部、全球新闻事件等。监测并且分析这些由用户产生的内容能够发现很多有价值的信息,帮助个人和组织机构获得第一手的咨询。
由于这些社交网络平台内容是由用户生成的,基于社交网络平台的突发事件检测方法面临着诸多挑战。首先是规模,以推特为例,每天大约有5亿条推文,平均每秒钟有6k条推文;其次是不规范,由于平台的限制,每条信息需限制在固定字数内,以推特为例,每条推文最多包含280个单词,因此用户在发布信息时,可能会使用简化符号,或者缩写,这给识别文本语义带来了困难;最后是噪音,作为分享型平台,用户会在平台上记录自己的生活,这些与事件无关的推文给事件检测带来了困难。
基于推文聚类与基于关键词聚类是进行突发事件检测的两种常用的方法,然而基于推文聚类的方法通常会带来较大的计算消耗,而关键词的选取对于基于关键词聚类的方法具有较大的影响。
发明内容
本发明的目的在于克服现有技术的不足,提供一种于关键词聚类的突发事件检测方法,实现对由社交媒体产生的短文本数据进行高效精确的事件检测。
为实现上述发明目的,本发明于关键词聚类的突发事件检测方法包括以下步骤:
S1:爬取预设时间窗口T内在社交媒体中发布的文本数据作为待进行突发事件检测的文本,根据预设的过滤规则对所收集的文本进行过滤,得到保留文本集合S;
S2:预先设置参考短语库,提取保留文本集合S所有文本中属于参考短语库的短语,构成保留文本集合S对应的短语集合A;
S3:分别计算短语集合A中的每个短语s的突发程度Ws,计算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示时间窗口T内关键短语s的突发概率,us表示时间窗口T内使用过关键短语s的用户数量,rs表示时间窗口T内包含关键短语s的文本被转发的次数,fs表示时间窗口T内使用关键短语s的用户的关注数目总和;
将所有短语按照突发程度从高到低进行排序,选择前K个关键短语作为突发短语加入突发短语集合B,K的值根据需要设置;
S4:将时间窗口T平均划分为M个连续不相交的子时间窗口,记第m个子时间窗口为Tm,m=1,2,…,M,对于每个突发短语e,e∈B,统计每个子时间窗口Tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口T内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口Tm所占比例d(e,m)=f1(e,m)/f2(e);
对突发短语集合B中的突发短语两两计算相似度,计算方法如下:
记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度S(ea,eb):
根据突发短语间的相似度对突发短语进行聚类,得到K个突发短语簇Ck,k=1,2,…,K,每个突发短语簇Ck即为时间窗口T的一个突发事件;
S5:对于每个突发短语簇Ck,从保留文本集合S中获取含有该突发短语簇Ck内突发短语的文本集合Dk,将文本集合Dk作为预训练语言模型的输入,将预训练语言模型输出的该文本集合的摘要作为突发短语簇Ck所对应突发事件的事件总结,得到事件检测结果。
本发明基于关键词聚类的突发事件检测方法,收集预设时间窗口内在社交媒体中发布的各个文本数据并过滤,根据参考短语库得到保留文本的短语集合并筛选得到突发短语,对突发短语进行聚类得到突发短语簇,每个突发短语簇即为时间窗口内的一个突发事件,然后从保留文本集合中获取该突发短语簇对应的文本集合作为预训练语言模型的输入,将预训练语言模型输出的该文本集合的摘要作为突发短语簇所对应突发事件的事件总结,得到事件检测结果。
本发明针对社交网络文本数据设计了一套完整并且高效的突发事件检测流程,实现对由社交媒体产生的短文本数据进行高效精确的突发事件检测。
附图说明
图1是本发明基于关键词聚类的突发事件检测方法的具体实施方式流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于关键词聚类的突发事件检测方法的具体实施方式流程图。如图1所示,本发明基于关键词聚类的突发事件检测方法的具体步骤包括:
S101:文本收集和过滤:
爬取预设时间窗口T内在社交媒体中发布的文本数据作为待进行突发事件检测的文本,根据预设的过滤规则对所收集的文本进行过滤,得到保留文本集合S。
一般来说,过滤规则可以采用一种判断条件或多种判断条件组合得到,判断条件通常包括:文本长度是否小于预设阈值、文本语种是否为预设语种、文本是否是回复或转发信息、文本包含的URL是否包含广告信息、文本哈希标签数量是否大于预设阈值,当某文本满足任一所设置的判断条件,则删除该文本,从而实现文本过滤。
本实施例中设置文本长度阈值为5,预设语种为非英文,URL中包含amazon或ebay等表示广告信息,哈希标签数目阈值为3。表1是本实施例中保留文本示例。
表1
S102:提取文本短语集合:
预先设置参考短语库,提取保留文本集合S每个文本中属于参考短语库的短语,构成保留文本集合S对应的短语集合A。
本实施例中采用维基百科作为远监督工具,即将维基百科的标题作为参考短语,构成参考短语库。表2是本实施例中各个文本及对应的短语集合。
表2
根据表2可知,所得到的短语集合A={Iran,president,foreign minister,Zarif,resignation,fellow diplomats,hinting at,foreign policy,In front of,condemns,human rights,except for}。
S103:筛选突发短语:
分别计算短语集合A中的每个短语s的突发程度Ws,计算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示时间窗口T内关键短语s的突发概率,即ts、ts′分别表示时间窗口T内关键短语s、关键短语s′出现的次数,s,s′∈A,us表示时间窗口T内使用过关键短语s的用户数量,rs表示时间窗口T内包含关键短语s的文本被转发的次数,fs表示时间窗口T内使用关键短语s的用户的关注数目总和。
将所有短语按照突发程度从高到低进行排序,选择前K个关键短语作为突发短语加入突发短语集合B,K的值根据需要设置。
表3是本实施例中各个短语的突发程度列表。
表3
本实施例中选择前3个关键短语作为突发短语加入突发短语集合B,即B={Iran,Zarif,foreign minister}。
S104:基于突发短语聚类构建突发事件:
将时间窗口T平均划分为M个连续不相交的子时间窗口,记第m个子时间窗口为Tm,m=1,2,…,M,对于每个突发短语e,e∈B,统计每个子时间窗口Tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口T内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口Tm所占比例d(e,m)=f1(e,m)/f2(e)。
对突发短语集合B中的突发短语两两计算相似度,计算方法如下:
记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度S(ea,eb):
根据突发短语间的相似度对突发短语进行聚类,得到K个突发短语簇Ck,k=1,2,…,K,每个突发短语簇Ck即为时间窗口T的一个突发事件。
本实施例中,文本集合之间的相似度采用TF-IDF(term frequency–inversedocument frequency,词频-逆向文件频率)相似度。TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本实施例中文本集合的TF-IDF相似度的计算方法包括以下步骤:
1)分别对两个文本集合进行分词,对得到两个单词集合进行合并得到单词集合φ。
2)对于单词集合φ中的每个单词,分别计算该单词在两个文本集合中的TF-IDF值pi,1、pi,2,i=1,2,…,|φ|,|φ|表示单词集合φ中单词数量。TF-IDF值的计算方法为:对于单词i,统计其在文本集合中的词频TF(i)和逆文本频率IDF(i)=log(D/Di),D表示文本集合中的文本数量,Di表示文本集合中包含单词i的文本数量,则TF-IDF值为TF(i)×IDF(i)。
3)根据每个单词的TF-IDF值构建得到每个文本集合对应的TF-IDF向量P1=(p1,1,p2,1,…p|φ|,1)、P2=(p1,2,p2,2,…p|φ|,2)。
4)计算两个文本集合对应的TF-IDF向量之间的余弦相似度,即作为文本集合之间的相似度。本实施例中突发短语的聚类采用Jarvis-Patrick聚类算法,该算法可以基于突发知识间的相似度进行聚类,其方法可以简述如下:根据突发短语相似度绘制SNN(sharednearest neighbor,共享最近邻居)相似度图,利用相似度阈值对SNN相似度图进行稀疏化,找出稀疏化的SNN相似度图的连通分支,即可得到聚类结果。
表4是本实施例中突发短语聚类得到的突发短语簇。
表4
S105:事件总结:
对于每个突发短语簇Ck,从保留文本集合S中获取含有该突发短语簇Ck内突发短语的文本集合Dk,将文本集合Dk作为预训练语言模型的输入,将预训练语言模型输出的该文本集合的摘要作为突发短语簇Ck所对应突发事件的事件总结,得到事件检测结果。
本实施例中预训练语言模型采用预训练模型BART-large。表5是本实施例中事件总结结果。
表5
如表5所示,本发明所得到的事件总结与人为观察的结果相符,证明了本发明的有效性。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种基于关键词聚类的突发事件检测方法,其特征在于,包括以下步骤:
S1:爬取预设时间窗口T内在社交媒体中发布的文本数据作为待进行突发事件检测的文本,根据预设的过滤规则对所收集的文本进行过滤,得到保留文本集合S;
S2:预先设置参考短语库,提取保留文本集合S所有文本中属于参考短语库的短语,构成保留文本集合S对应的短语集合A;
S3:分别计算短语集合A中的每个短语s的突发程度Ws,计算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示时间窗口T内关键短语s的突发概率,us表示时间窗口T内使用过关键短语s的用户数量,rs表示时间窗口T内包含关键短语s的文本被转发的次数,fs表示时间窗口T内使用关键短语s的用户的关注数目总和;
将所有短语按照突发程度从高到低进行排序,选择前K个关键短语作为突发短语加入突发短语集合B,K的值根据需要设置;
S4:将时间窗口T平均划分为M个连续不相交的子时间窗口,记第m个子时间窗口为Tm,m=1,2,…,M,对于每个突发短语e,e∈B,统计每个子时间窗口Tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口T内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口Tm所占比例d(e,m)=f1(e,m)/f2(e);
对突发短语集合B中的突发短语两两计算相似度,计算方法如下:
记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度S(ea,eb):
根据突发短语间的相似度对突发短语进行聚类,得到K个突发短语簇Ck,k=1,2,…,K,,每个突发短语簇Ck即为时间窗口T的一个突发事件;
S5:对于每个突发短语簇Ck,从保留文本集合S中获取含有该突发短语簇Ck内突发短语的文本集合Dk,将文本集合Dk作为预训练语言模型的输入,将预训练语言模型输出的该文本集合的摘要作为突发短语簇Ck所对应突发事件的事件总结,得到事件检测结果。
2.根据权利要求1所述的突发事件检测方法,其特征在于,所述步骤S1中过滤规则采用一种判断条件或多种判断条件组合得到,判断条件包括:文本长度是否小于预设阈值、文本语种是否为预设语种、文本是否是回复或转发信息、文本包含的URL是否包含广告信息、文本哈希标签数量是否大于预设阈值,当某文本满足任一所设置的判断条件,则删除该文本,从而实现文本过滤。
3.根据权利要求1所述的突发事件检测方法,其特征在于,所述步骤S2中参考知识库中所包含的参考短语为维基百科的标题。
4.根据权利要求1所述的突发事件检测方法,其特征在于,所述步骤S4中文本集合相似度采用TF-IDF相似度,计算方法包括以下步骤:
1)分别对两个文本集合进行分词,对得到的两个单词集合进行合并得到单词集合φ;
2)对于单词集合φ中的每个单词,分别计算该单词在两个文本集合中的TF-IDF值pi,1、pi,2,i=1,2,…,|φ|,|φ|表示单词集合φ中单词数量;
3)根据每个单词的TF-IDF值构建得到每个文本集合对应的TF-IDF向量P1=(p1,1,p2,1,…p|φ|,1)、P2=(p1,2,p2,2,…p|φ|,2);
4)计算两个文本集合对应的TF-IDF向量之间的余弦相似度,即作为文本集合之间的相似度。
5.根据权利要求1所述的自动化事件标记与分类方法,其特征在于,所述步骤S4中突发短语的聚类采用Jarvis-Patrick聚类算法。
6.根据权利要求1所述的自动化事件标记与分类方法,其特征在于,所述步骤S5中预训练语言模型采用预训练模型BART-large。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011498455.2A CN112527960A (zh) | 2020-12-17 | 2020-12-17 | 基于关键词聚类的突发事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011498455.2A CN112527960A (zh) | 2020-12-17 | 2020-12-17 | 基于关键词聚类的突发事件检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112527960A true CN112527960A (zh) | 2021-03-19 |
Family
ID=75001256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011498455.2A Pending CN112527960A (zh) | 2020-12-17 | 2020-12-17 | 基于关键词聚类的突发事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527960A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279479A (zh) * | 2013-04-19 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客平台文本流的突发话题检测方法及系统 |
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN105224604A (zh) * | 2015-09-01 | 2016-01-06 | 天津大学 | 一种基于堆优化的微博突发事件检测方法及其检测装置 |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN110232158A (zh) * | 2019-05-06 | 2019-09-13 | 重庆大学 | 基于多模态数据的突发公共安全事件检测方法 |
CN110489548A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 一种基于语义、时间和社交关系的中文微博话题检测方法及系统 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN111125484A (zh) * | 2019-12-17 | 2020-05-08 | 网易(杭州)网络有限公司 | 话题发现方法、系统及电子设备 |
CN111651559A (zh) * | 2020-05-29 | 2020-09-11 | 辽宁工程技术大学 | 一种基于事件抽取的社交网络用户关系抽取方法 |
-
2020
- 2020-12-17 CN CN202011498455.2A patent/CN112527960A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279479A (zh) * | 2013-04-19 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客平台文本流的突发话题检测方法及系统 |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN105224604A (zh) * | 2015-09-01 | 2016-01-06 | 天津大学 | 一种基于堆优化的微博突发事件检测方法及其检测装置 |
CN107273496A (zh) * | 2017-06-15 | 2017-10-20 | 淮海工学院 | 一种微博网络地域突发事件的检测方法 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN110543590A (zh) * | 2019-01-23 | 2019-12-06 | 北京信息科技大学 | 一种微博突发事件的检测方法 |
CN110232158A (zh) * | 2019-05-06 | 2019-09-13 | 重庆大学 | 基于多模态数据的突发公共安全事件检测方法 |
CN110489548A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 一种基于语义、时间和社交关系的中文微博话题检测方法及系统 |
CN111125484A (zh) * | 2019-12-17 | 2020-05-08 | 网易(杭州)网络有限公司 | 话题发现方法、系统及电子设备 |
CN111651559A (zh) * | 2020-05-29 | 2020-09-11 | 辽宁工程技术大学 | 一种基于事件抽取的社交网络用户关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
KEVAL MORABIA: "SEDTWik: Segmentation-based Event Detection from Tweets using Wikipedia", 《PROCEEDINGS OF THE 2019 CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: STUDENT RESEARCH WORKSHOP》 * |
LICHENLIANG: "Twevent: segment-based event detection from tweets", 《CIKM "12: PROCEEDINGS OF THE 21ST ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9923931B1 (en) | Systems and methods for identifying violation conditions from electronic communications | |
Agarwal et al. | Applying social media intelligence for predicting and identifying on-line radicalization and civil unrest oriented threats | |
CN110232149B (zh) | 一种热点事件检测方法和系统 | |
Kirelli et al. | Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language | |
Asgari-Chenaghlu et al. | Topic detection and tracking techniques on Twitter: a systematic review | |
Patil et al. | Machine learning techniques for the classification of fake news | |
Hasan et al. | TwitterNews: Real time event detection from the Twitter data stream | |
Shim et al. | Predicting movie market revenue using social media data | |
Tundis et al. | Supporting the identification and the assessment of suspicious users on twitter social media | |
Vu et al. | Rumor detection by propagation embedding based on graph convolutional network | |
Teh et al. | Profanity and hate speech detection | |
CN112487306B (zh) | 基于知识图谱的自动化事件标记与分类方法 | |
Sharma et al. | Fake news detection on Twitter | |
Makhortykh et al. | Panning for gold: Lessons learned from the platform-agnostic automated detection of political content in textual data | |
Campbell et al. | Content+ context networks for user classification in twitter | |
Chen et al. | Research on clustering analysis of Internet public opinion | |
Deokate | Fake news detection using support vector machine learning algorithm | |
Zhang et al. | Text information classification method based on secondly fuzzy clustering algorithm | |
Reddy et al. | Author profile prediction using pivoted unique term normalization | |
CN112527960A (zh) | 基于关键词聚类的突发事件检测方法 | |
Santhiya et al. | Automated crime tweets classification and geo-location prediction using big data framework | |
Waissbluth et al. | Domain-Level Detection and Disruption of Disinformation | |
Xin et al. | Academic conference homepage understanding using constrained hierarchical conditional random fields | |
Arnfield | Enhanced Content-Based Fake News Detection Methods with Context-Labeled News Sources | |
Kalaivani et al. | Classification of sentiment reviews using POS based machine learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |
|
RJ01 | Rejection of invention patent application after publication |