CN110134876B - 一种基于群智传感器的网络空间群体性事件感知与检测方法 - Google Patents
一种基于群智传感器的网络空间群体性事件感知与检测方法 Download PDFInfo
- Publication number
- CN110134876B CN110134876B CN201910360276.3A CN201910360276A CN110134876B CN 110134876 B CN110134876 B CN 110134876B CN 201910360276 A CN201910360276 A CN 201910360276A CN 110134876 B CN110134876 B CN 110134876B
- Authority
- CN
- China
- Prior art keywords
- microblog
- account
- event
- data
- root
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000035945 sensitivity Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 230000008447 perception Effects 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012358 sourcing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 4
- 241000700605 Viruses Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 206010020400 Hostility Diseases 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于群智传感器的网络空间群体性事件感知与检测方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;步骤三、对传感器账号的微博数据进行去噪处理;步骤四、对去噪后的微博数据按评论转发数进行排序;步骤五、对排序后的微博数据进行去重处理;步骤六、识别出相关事件涉及的时间地点和人物;步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。本发明通过筛选具有影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知,无需对大规模微博数据进行挖掘,有效节省了计算和时间成本。
Description
技术领域
本发明属于计算机和数据挖掘技术领域,具体涉及一种感知并检测网络空间群体性事件的方法。
背景技术
微博作为中国目前最大的舆论平台之一,对舆情事件的传播起到巨大的推动作用。然而,微博中存在的诸多谣言或恶意信息肆意传播的现象,给监管部门带来巨大挑战。因此,感知并检测网络空间群体性事件对促进网络安全的发展有重要意义。
目前业界存在的微博热点话题追踪方法,主要是通过爬取微博数据,对全部爬取的数据使用LDA(文档主题生成模型)模型进行主题识别,然后计算话题/主题的相似度进行合并。但这些方法存在一定的局限性:如果爬取的数据过少,则识别的主题有限,若爬取的数据过多,则计算处理的代价过高。且常见热点话题的识别算法并没有考虑网络内容安全的需要,因而无法应用在网络安全领域。因此,本发明在总结目前关于微博热点话题挖掘缺陷的基础上,针对社会舆情和网络内容安全,提出了一种完备的网络空间群体性事件的感知与检测方法,以快速准确地识别网络空间群体性事件。
发明内容
本发明针对大数据环境下网络空间群体性事件难以在早期识别和检测的问题,构建了一种基于群智传感器的网络空间群体性事件感知与检测方法,在早期识别并检测网络空间群体性事件。
本发明提供的基于群智传感器的网络空间群体性事件感知与检测方法,具体步骤如下:
步骤一、收集每天的微博流数据;为每条微博流数据设置1个标识,标识该条微博是原创微博、转发微博或评论微博。
每条微博的数据包括:uid,mid,root_mid,root_uid,账号粉丝数,时间,微博文本内容;
uid为当前微博账号的标识id;mid为当前微博的id;
root_mid分为三种情况:如果当前微博是原创微博,root_mid为空;如果当前微博是转发微博,root_mid为被转发微博id;如果当前微博是评论微博,root_mid为被评论微博id;
root_uid分为三种情况:如果当前微博是原创微博,root_uid为空;如果是转发微博,root_uid为被转发账号id;如果是评论微博,root_uid为被评论账号id;
时间为当前微博的发布时间;
微博文本内容分为三种情况:如果是原创微博,微博文本内容即用户发布内容;如果是转发微博,微博文本内容是用户转发时附加的评论信息;如果是评论微博,微博文本内容即被评论微博的发布内容。
步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;
对一个微博账号,计算该账号的影响力Power=0.4*active level+0.6*bloginfluence;
其中,active level为账号活跃度,计算公式为:
active level=0.4*exp(x1)+0.4*ln(x2)+0.2*lg(x3);
x1为该账号的原创微博数量,x2为该账号转发和评论的微博数量,x3为该账号的粉丝数;
blog influence为账号的微博影响力,计算公式为:blog influence=0.5*x4+0.5*x5;
x4为该账号的原创微博平均被转发量,x5为该帐号的原创微博平均被评论量。
步骤三、对传感器账号的微博流数据进行去噪处理,剔除包含非群体性事件内容的微博。
步骤四、对去噪后的微博数据按热度进行排序,使用微博的评论转发数计算其热度。
步骤五、对排序后的微博数据进行去重处理,以事件为中心对微博进行聚合。
步骤六、识别出事件涉及的时间、地点和人物,将不包含时间和地点的微博过滤掉,剩下的微博是与事件相关的微博数据。
步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。
相对于现有技术,本发明的优点和积极效果在于:
1)步骤二中,通过筛选具有一定影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知和检测,在保证网络空间群体性事件识别准确率的前提下,有效减少了相关计算的工作量,从而更早地感知出网络空间群体性事件以采取相关对策。
2)步骤五中,使用了shingle算法对去噪后的微博数据进行了聚合操作,该操作的意义在于对同一事件的不同文本描述进行聚合,从而明确了有哪些群体性事件及哪些微博文本与某事件相关。
3)本发明方法提出了一套较为完备的网络空间群体性事件感知与检测方案,涵盖了网络空间群体性事件的感知,检测和计算,计算阶段包括事件分类和微博敏感度计算,其中事件分类是专门针对网络空间群体性事件定制的,涵盖了20个与网络和社会安全相关的敏感领域,能够为处置网络空间群体性事件提供决策支持。
附图说明
图1为本发明的基于群智传感器的网络空间群体性事件感知与检测方法的流程图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明的基于群智传感器的网络空间群体性事件感知与检测方法的一个实现流程如图1所示,下面对各步骤进行说明。
步骤一、收集每日的微博流数据;
每天新浪微博的流数据推送到服务器,微博流数据可分为原创微博、转发微博和评论微博三类。每条流数据含有1个标识,标识设置为1、2或3,1表示该条微博是原创微博,2表示该条微博是评论微博,3表示该条微博是转发微博。
每条流数据的信息包括:uid,mid,root_mid,root_uid,账号粉丝数,时间,微博文本内容;
uid为当前微博的用户id(标识);mid为当前微博的标识id;
root_mid分为三种情况:如果当前微博是原创微博,root_mid为空;如果当前微博是转发微博,root_mid为被转发的微博ID;如果当前微博是评论微博,root_mid为被评论的微博ID;
root_uid分为三种情况:如果当前微博是原创微博,root_uid为空;如果是转发微博,root_uid为被转发的用户ID;如果是评论微博,root_uid为被评论的用户ID;
时间为当前微博的发布时间;
微博文本内容分为三种情况:如果是原创微博,微博文本内容即用户发布的内容;如果是转发微博,微博文本内容是用户转发时附加的评论信息;如果是评论微博,微博文本内容是被评论微博的内容。
根据上述流数据的设定,具体地,
针对原创微博的流数据,包括:uid为用户ID,mid为微博ID,用户粉丝数,微博发布时间和内容;
针对转发微博的流数据,包括:uid为用户ID,mid为转发微博ID,root_mid为被转发微博ID,root_uid为被转发用户ID,用户粉丝数,微博发布时间,微博文本内容是用户附加的评论信息;
针对评论微博的流数据,包括:uid为用户ID,mid为评论微博ID,root_mid为被评论微博ID,root_uid为被评论用户ID,用户粉丝数,微博发布时间,被评论微博的内容。
微博数据存储在Elasticsearch数据库中,每条微博对应数据库中的一项。
步骤二、筛选具有一定影响力的媒体或用户作为传感器账号,这些传感器账号较为活跃且具备一定影响力,具有捕捉或传播网络空间群体性事件的潜力。
本发明计算账号的影响力,来选取传感器账号。对于一个微博账号,账号影响力power的具体计算方法如下:
power=0.4*active level+0.6*blog influence
其中,active level为账号活跃度,具体计算方法如下:
active level=0.4*exp(x1)+0.4*ln(x2)+0.2*lg(x3)
其中,x1为账号的原创微博数量,x2为账号转发和评论的微博数量,x3为账号的粉丝数。blog influence为账号微博影响力,具体计算方法如下:
blog influence=0.5*x4+0.5*x5
其中,x4为账号的原创微博平均被转发量,x5为账号的原创微博平均被评论量。计算方法如下:
x4=总转发量/原创微博总数
x5=总评论量/原创微博总数
本发明实施例中,选取账号影响力大于1200的作为传感器账号。
步骤三、对传感器账号的微博数据进行去噪处理,剔除包含非群体性事件内容的微博,提升网络空间群体性事件感知的准确率。
去噪处理的具体过程如下:训练一个基于卷积神经网络的文本分类器。共14个类别,包括体育,财经,房产,家居,教育,科技,时尚,时政,游戏,娱乐,彩票,星座,社会,股票。其中体育,财经,房产,科技,时尚,游戏,娱乐,彩票,星座,股票可以认为是噪声/杂质,涉及这些内容的微博需要被过滤。
步骤四、对去噪后的微博数据按热度进行排序。
对于一条微博,微博热度heat的计算方式如下:
heat=0.5*ln(x6)+0.5*ln(x7)
其中,x6为微博的转发数,x7为微博的评论数。评论转发数越高的微博,其蕴含事件的传播范围越广,影响力越大。
步骤五、对排序后的微博数据进行去重处理;即合并涉及相同事件的不同微博,以事件为中心对微博进行聚合。
本发明实施例中使用shingle算法对去噪后的微博数据进行了聚合操作。具体过程如下:假设有两条微博A和B,首先去除两条微博中的标点和停用词,然后以K=3的长度切分文本,将切分后的短语放入集合。得到两个集合后取这两个集合的交集并计算A、B文本的Jaccard系数:
Jaccard(A,B)=m/(na+nb-m)
其中,m为两集合交集的元素数量,na为微博A切词后的短语数量,nb为微博A切词后的短语数量。Jaccard系数越大,则两条微博的相似度越高。设定一个阈值,若Jaccard系数大于该阈值,则认为两条微博重复,进行合并。
步骤六、识别出相关事件涉及的时间、地点和人物,实现网络空间群体性事件感知与检测。
本发明实施例中使用命名实体识别方法对事件中的时间、地点和人物进行提取,过滤掉不包含时间和地点的微博,剩下的微博可以认为是与群体性事件有关的微博。
步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。
事件分类结合了人文社科知识,是专门针对网络空间群体性事件定制的分类体系,涉及的领域包括:反腐贪污,交通管理,教育管理,儿童保护,环境污染,自然灾害,医患矛盾,医药安全,食品安全,拆迁冲突,敌对势力,军事国防,政治外交,港台侨务,网络暴力,信息安全,公共治安,暴力恐怖,经济金融,维权行为。具体过程如下:
每个领域请专家指定领域关键种子词,利用词向量进行扩充。以信息安全领域为例,扩充后的关键种子词包括安全漏洞,信息泄露,网络诈骗,黑客,恶意程序,加密算法,隐私泄露,隐私数据,用户数据泄露,后门程序,黑客攻击,网络病毒,客户资料泄露,电信诈骗,漏洞,熊猫烧香,网络黑灰产业,信息失控隐私信息,信安,VPN,病毒木马,防火墙,杀毒。利用关键词去开放互联网搜集数据,通过关键词命中方式得到对应的事件数据。对得到的事件数据进行预处理并人工审核,得到最终的训练数据。训练一个基于FastText的多类别文本分类器。利用训练好的分类器对事件进行分类。
敏感值计算旨在反映出微博内容的敏感程度,处理过程如下:
存在一个人工维护的敏感词列表,包含若干敏感词-权重对,用户可依需要对敏感词列表进行扩充。将敏感词列表中的各敏感词依次与微博内容进行匹配,某条微博的敏感值sensitive value计算如下:
sensitive value=∑yi*wi
其中,yi是敏感词列表中的第i项,wi为相应的权重值。敏感值越大说明该微博包含的内容越敏感。可以进一步根据敏感值来进行群体性事件监测工作等。
Claims (3)
1.一种基于群智传感器的网络空间群体性事件感知与检测方法,其特征在于,包括如下步骤:
步骤一、收集每天的微博流数据;
为每条微博设置1个标识,标识该条微博是原创微博、转发微博还是评论微博;记录每条微博的数据,包括:uid,mid,root_mid,root_uid,账号粉丝数,时间,微博文本内容;其中,
uid为当前微博的账号标识ID,mid为当前微博的标识ID;
root_mid分为三种情况:如果原创微博,root_mid为空;如果是转发微博,root_mid为被转发的微博ID;如果是评论微博,root_mid为被评论的微博ID;
root_uid分为三种情况:如果是原创微博,root_uid为空;如果是转发微博,root_uid为被转发的账号ID;如果是评论微博,root_uid为被评论的账号ID;
时间为当前微博的发布时间;
微博文本内容分为三种情况:如果是原创微博,微博文本内容是用户发布的内容;如果是转发微博,微博文本内容是用户转发时附加的评论信息;如果是评论微博,微博文本内容是被评论微博的内容;
步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;选取影响力大于1200的微博账号作为传感器账号;
对一个微博账号,计算该账号的影响力Power=0.4*active level+0.6*bloginfluence;
其中,active level为账号活跃度,计算公式为:
active level=0.4*exp(x1)+0.4*ln(x2)+0.2*lg(x3);
x1为该账号的原创微博数量,x2为该账号转发和评论的微博数量,x3为该账号的粉丝数;
blog influence为账号的微博影响力,计算公式为:blog influence=0.5*x4+0.5*x5;
x4为该账号的原创微博平均被转发量,x5为该账号的原创微博平均被评论量;
步骤三、对传感器账号的微博数据进行去噪处理,剔除包含非群体性事件内容的微博;
所述的步骤三训练一个基于卷积神经网络的文本分类器,共分14个类别,包括体育、财经、房产、家居、教育、科技、时尚、时政、游戏、娱乐、彩票、星座、社会和股票;将体育、财经、房产、科技、时尚、游戏、娱乐、彩票、星座和股票认为是噪声;
步骤四、对去噪后的微博数据按热度进行排序;使用微博的评论转发数计算微博的热度;
步骤五、对排序后的微博数据进行去重处理,以事件为中心对微博进行聚合;
所述步骤五,对微博文本内容首先去掉标点和停用词,然后进行切词,将切分后的短语放入集合,设得到两个微博数据A和B的短语集合,取两个集合的交集并计算A和B的Jaccard系数,Jaccard(A,B)=m/(na+nb-m),m为两集合交集的元素数量,na为微博A切词后的短语数量,nb为微博A切词后的短语数量;设定一个阈值,若Jaccard系数大于该阈值,则认为两条微博重复,进行合并;步骤六、识别出事件涉及的时间、地点和人物,过滤掉不包含时间和地点的微博,剩下的微博是与事件相关的微博数据;
步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。
2.如权利要求1所述的一种基于群智传感器的网络空间群体性事件感知与检测方法,其特征在于,所述的步骤四中,对于一条微博的热度heat的计算方式如下:
heat=0.5*ln(x6)+0.5*ln(x7)
其中,x6为微博的转发数,x7为微博的评论数。
3.如权利要求1所述的一种基于群智传感器的网络空间群体性事件感知与检测方法,其特征在于,所述的步骤七中,实现微博内容的敏感值计算的方法如下:
存在一个人工维护的敏感词列表,表内包含敏感词-权重对,将敏感词列表中的各敏感词依次与微博内容进行匹配,某条微博的敏感值sensitive value计算如下:
sensitive value=∑yi*wi
其中,yi是敏感词列表中的第i项,wi为相应的权重值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019100858161 | 2019-01-29 | ||
CN201910085816 | 2019-01-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134876A CN110134876A (zh) | 2019-08-16 |
CN110134876B true CN110134876B (zh) | 2021-10-26 |
Family
ID=67575735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910360276.3A Active CN110134876B (zh) | 2019-01-29 | 2019-04-30 | 一种基于群智传感器的网络空间群体性事件感知与检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134876B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN110766311B (zh) * | 2019-10-18 | 2023-10-31 | 北京神谷文化传播有限公司 | 基于Swarm模型的微博用户影响力计算方法及系统 |
CN111400331B (zh) * | 2020-03-17 | 2023-05-30 | 吉林亿联银行股份有限公司 | 一种基于TiDB数据库的处理方法及装置 |
CN111414496B (zh) * | 2020-03-27 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的多媒体文件的检测方法和装置 |
CN111581370B (zh) * | 2020-04-20 | 2023-06-23 | 国家计算机网络与信息安全管理中心 | 综合多通道数据来源的网络舆情热度评估方法及装置 |
CN113761312A (zh) * | 2021-07-09 | 2021-12-07 | 杭州叙简科技股份有限公司 | 一种基于Elasticsearch和微博评论的网络写手检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838783A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种适合于中文网页文档的后缀树聚类方法 |
CN104471571A (zh) * | 2012-07-11 | 2015-03-25 | 谢晚霞 | 事件驱动架构下对Web活动索引、排序和分析的系统和方法 |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
CN106303606A (zh) * | 2016-08-18 | 2017-01-04 | 上海卓易科技股份有限公司 | 一种在线视频播放方法及装置 |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
CN108829699A (zh) * | 2018-04-19 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 一种热点事件的聚合方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7617240B2 (en) * | 1999-05-04 | 2009-11-10 | Accenture Llp | Component based task handling during claim processing |
CN103198161B (zh) * | 2013-04-28 | 2018-09-07 | 中国科学院计算技术研究所 | 微博水军识别方法与设备 |
CN103970848B (zh) * | 2014-05-01 | 2016-05-11 | 刘莎 | 一种通用型互联网信息数据挖掘方法 |
CN105205146B (zh) * | 2015-09-18 | 2018-10-30 | 国家计算机网络与信息安全管理中心 | 一种计算微博用户影响力的方法 |
CN105512166B (zh) * | 2015-10-30 | 2019-07-02 | 青岛智能产业技术研究院 | 一种微博舆情与城市路况相映射的交通平行方法 |
US10108714B2 (en) * | 2015-12-22 | 2018-10-23 | International Business Machines Corporation | Segmenting social media users by means of life event detection and entity matching |
-
2019
- 2019-04-30 CN CN201910360276.3A patent/CN110134876B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104471571A (zh) * | 2012-07-11 | 2015-03-25 | 谢晚霞 | 事件驱动架构下对Web活动索引、排序和分析的系统和方法 |
CN103838783A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种适合于中文网页文档的后缀树聚类方法 |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
CN106303606A (zh) * | 2016-08-18 | 2017-01-04 | 上海卓易科技股份有限公司 | 一种在线视频播放方法及装置 |
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN108829699A (zh) * | 2018-04-19 | 2018-11-16 | 北京奇艺世纪科技有限公司 | 一种热点事件的聚合方法和装置 |
CN108733816A (zh) * | 2018-05-21 | 2018-11-02 | 重庆人文科技学院 | 一种微博突发事件检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110134876A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134876B (zh) | 一种基于群智传感器的网络空间群体性事件感知与检测方法 | |
Alhogail et al. | Applying machine learning and natural language processing to detect phishing email | |
Egele et al. | Towards detecting compromised accounts on social networks | |
Sohrabi et al. | A feature selection approach to detect spam in the Facebook social network | |
US8489689B1 (en) | Apparatus and method for obfuscation detection within a spam filtering model | |
US8112484B1 (en) | Apparatus and method for auxiliary classification for generating features for a spam filtering model | |
Rathod et al. | Content based spam detection in email using Bayesian classifier | |
Han et al. | Accurate spear phishing campaign attribution and early detection | |
Sonowal | Phishing email detection based on binary search feature selection | |
Thakur et al. | Innovations of phishing defense: The mechanism, measurement and defense strategies | |
Zafarani et al. | 10 bits of surprise: Detecting malicious users with minimum information | |
Ramalingaiah et al. | Twitter bot detection using supervised machine learning | |
Priya et al. | Detection of phishing websites using C4. 5 data mining algorithm | |
Rayan | Analysis of e‐Mail Spam Detection Using a Novel Machine Learning‐Based Hybrid Bagging Technique | |
Veena et al. | C SVM classification and KNN techniques for cyber crime detection | |
Iqbal et al. | Machine learning for authorship attribution and cyber forensics | |
Aljammal et al. | Machine Learning Based Phishing Attacks Detection Using Multiple Datasets. | |
Hans et al. | Approaches for web spam detection | |
Chakraborty et al. | A URL address aware classification of malicious websites for online security during web-surfing | |
Ahmed et al. | A framework for phishing attack identification using rough set and formal concept analysis | |
Patil et al. | Learning to detect phishing web pages using lexical and string complexity analysis | |
Tan | Anti-spam techniques based on artificial immune system | |
Santos et al. | Spam filtering through anomaly detection | |
Valpadasu et al. | Machine Learning based Spam Comments Detection on YouTube | |
Shupo et al. | Toward efficient detection of child pornography in the network infrastructure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |