CN103188347B - 互联网事件分析方法与装置 - Google Patents

互联网事件分析方法与装置 Download PDF

Info

Publication number
CN103188347B
CN103188347B CN201310084577.0A CN201310084577A CN103188347B CN 103188347 B CN103188347 B CN 103188347B CN 201310084577 A CN201310084577 A CN 201310084577A CN 103188347 B CN103188347 B CN 103188347B
Authority
CN
China
Prior art keywords
information
user
crowd
event
normal users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310084577.0A
Other languages
English (en)
Other versions
CN103188347A (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co Ltd
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN201310084577.0A priority Critical patent/CN103188347B/zh
Publication of CN103188347A publication Critical patent/CN103188347A/zh
Application granted granted Critical
Publication of CN103188347B publication Critical patent/CN103188347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种互联网事件分析方法与装置,其中,互联网事件分析方法包括:根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的URL的信息和正常用户的用户标识信息;根据URL的信息,获取URL对应的网页正文,并对网页正文进行热点词提取;根据提取的热点词,从获取的网页正文中提取出互联网事件;获取访问互联网事件的正常用户的用户标识信息;根据用户标识信息和设置的人群分组样本库,分别确定正常用户所在的人群分组,获取各个人群分组的属性信息;根据获取的各个人群分组的属性信息,确定互联网事件的事件人群信息。通过本发明,能够对互联网事件进行更深层次地分析。

Description

互联网事件分析方法与装置
技术领域
本发明涉及网络技术领域,特别是涉及一种互联网事件分析方法与装置。
背景技术
网络舆情是通过互联网传播的、公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过微博、BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。
网络上的互联网事件是网络舆情体现的基本要素,对互联网事件的管理是实现网络舆情管理的重要的环节。目前,对互联网事件的管理主要是对互联网事件相关内容和数据的收集,而无法进行更深层次地分析、防止互联网事件发展,给出合理的应对措施,从而对互联网事件相关者造成损失或不良影响。
发明内容
本发明提供了一种互联网事件分析方法与装置,以解决现有技术无法对互联网事件进行更深层次地分析、防止互联网事件发展,给出合理的应对措施的问题。
为了解决上述问题,本发明公开了一种互联网事件分析方法,包括:根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;获取访问所述互联网事件的所述正常用户的用户标识信息;根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息。
优选地,所述根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件的步骤包括:根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组所述变化事件作为与本组主题相对应的单个互联网事件。
优选地,所述获取访问所述互联网事件的所述正常用户的用户标识信息的步骤包括:根据所述互联网事件对应的所有变化事件,确定各个所述变化事件对应的URL;根据过滤后的所述全网网络访问日志信息,确定访问所述各个变化事件对应的URL的正常用户的用户标识信息。
优选地,在所述根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息和所述正常用户的用户标识信息的步骤之前,还包括:获取用户的全网网络访问日志信息;对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
优选地,所述对所述网页正文进行热点词提取的步骤包括:对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。
为了解决上述问题,本发明还公开了一种互联网事件分析装置,包括:第一获取模块,用于根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;第一提取模块,用于根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;第二获取模块,用于获取访问所述互联网事件的所述正常用户的用户标识信息;第三获取模块,用于根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;确定模块,用于根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息。
优选地,所述第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组所述变化事件作为与本组主题相对应的单个互联网事件。
优选地,所述第三获取模块,用于根据所述互联网事件对应的所有变化事件,确定各个所述变化事件对应的URL;根据过滤后的所述全网网络访问日志信息,确定访问所述各个变化事件对应的URL的正常用户的用户标识信息。
优选地,所述互联网事件分析装置还包括:第四获取模块,用于在所述第一获取模块根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息和所述正常用户的用户标识信息之前,获取用户的全网网络访问日志信息;对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
优选地,所述第一提取模块在对所述网页正文进行热点词提取时,对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。
与现有技术相比,本发明具有以下优点:
本发明针对互联网事件,首先根据正常用户的全网网络访问日志信息得到正常用户访问网站的URL和正常用户的用户标识信息;对URL对应的网页正文提取热点词后,根据热点词进行互联网事件提取,如根据“房姐”这个热点词提取一系列的“房姐”事件,作为“房姐”这个主题的互联网事件;然后,获取访问该互联网事件的用户的用户标识信息,进而通过用户标识信息和预先设置的人群分组样本库确定各个用户所在的人群分组;再通过人群分组的属性信息,如性别、年龄、爱好、社情倾向性特征等等,确定互联网事件的事件人群信息,也即关注该事件的人群的特征信息。
通过本发明,能够直接得到互联网事件的关注人群的相关信息,从而能够了解到该互联网事件相关的人群的特征、属性等等信息,进而,该事件的相关者能够根据这些信息对该事件进行深入分析,给出合理的应对策略,以正确引导该事件的舆情用户,从而解决了现有技术因不对互联网事件从人群的角度进行分析,导致无法对互联网事件进行更深层次地分析、防止互联网事件发展,给出合理的应对措施的问题。
附图说明
图1是根据本发明实施例一的一种互联网事件分析方法的步骤流程图;
图2是根据本发明实施例二的一种互联网事件分析方法的步骤流程图;
图3是根据本发明实施例三的一种互联网事件分析方法的步骤流程图;
图4是根据本发明实施例四的一种互联网事件分析装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了根据本发明实施例一的一种互联网事件分析方法的步骤流程图。
本实施例的互联网事件分析方法包括以下步骤:
步骤S102:根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的URL(UniformResourceLocator,统一资源定位符)的信息和正常用户的用户标识信息。
步骤S104:根据URL的信息,获取URL对应的网页正文,并对网页正文进行热点词提取。
步骤S106:根据提取的热点词,从获取的网页正文中提取出互联网事件。
提取出的互联网事件包括至少一件。通常情况下,一个主题的互联网事件可以包括一组事件,这一组事件具有相同的主题,如“房姐”主题的一系列事件,本发明中,将具有相同主题的一系列事件看作为一个互联网事件。
步骤S108:获取访问互联网事件的正常用户的用户标识信息。
在获取的正常用户的全网网络访问日志信息中,一个URL与一个用户标识是一一对应的。而一个互联网事件包括的一系列事件均具有相对应的一系列URL,通过URL与用户标识的对应关系,即可确定访问互联网事件的用户的用户标识。
步骤S110:根据用户标识信息和设置的人群分组样本库,分别确定访问互联网事件的正常用户所在的人群分组,获取各个人群分组的属性信息。
其中,人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息。属性信息的具体定义可以由本领域技术人员根据实际情况适当设置,用以说明该分组的人群具有的某个方面或某些方面的特性,如人群分组的性别、年龄、兴趣、爱好、社情倾向性特征等等,本发明对此不作限制。
人群分组样本库可以通过事先收集的样本生成,也可以直接采用第三方提供的样本库。若采用通过事先收集样本的样本生成的方式,则可以事先收集用户的网络访问信息,通过网络访问信息确定各种网络访问标识与用户的对应关系,如COOKIEID、ADSL账号、IP地址、邮箱账号等等与用户的对应关系,然后通过用户的网络访问信息收集用户的各种相关属性信息,如上述性别、年龄、兴趣、爱好、社情倾向性特征等信息;再然后,根据收集的用户的属性信息按照一定规则将用户分组,形成人群分组,如按照年龄将用户分为青年以下组、青年组、中年组、老年组等。这样,就形成了具有一定属性信息的人群分组,而通过用户标识可以确定一个用户所在的人群分组。
步骤S112:根据获取的各个人群分组的属性信息,确定互联网事件的事件人群信息。
也即,确定关注互联网事件的人群的信息,如,根据关注某个互联网事件的人群的年龄特征,可以确定有90%青年人关注该互联网事件,而其它年龄组的用户仅有10%关注了该事件等等。
通过本实施例,针对互联网事件,首先根据正常用户的全网网络访问日志信息得到正常用户访问网站的URL和正常用户的用户标识信息;对URL对应的网页正文提取热点词后,根据热点词进行互联网事件提取;然后,获取访问该互联网事件的用户的用户标识信息,进而通过用户标识信息和预先设置的人群分组样本库确定各个用户所在的人群分组;再通过人群分组的属性信息,确定互联网事件的事件人群信息,也即关注该事件的人群的特征信息。通过本实施例,能够直接得到互联网事件的关注人群的相关信息,从而能够了解到该互联网事件相关的人群的特征、属性等等信息,进而,该事件的相关者能够根据这些信息对该事件进行深入分析,给出合理的应对策略,以正确引导该事件的舆情用户,从而解决了现有技术因不对互联网事件从人群的角度进行分析,导致无法对互联网事件进行更深层次地分析、防止互联网事件发展,给出合理的应对措施的问题。
实施例二
参照图2,示出了根据本发明实施例二的一种互联网事件分析方法的步骤流程图。
本实施例的互联网事件分析方法包括以下步骤:
步骤S202:通过获取主干网流量的镜像数据,获取用户的全网网络访问日志信息。
获取的用户的全网网络访问日志信息可以是所有网民的上网访问日志信息。用户的全网网络访问日志信息的获取可以由本领域技术人员根据实际情况采用任意适当的方式获取,本实施例中,通过获取主干网流量的镜像数据,获取用户的全网网络访问日志信息,可以保证获取的信息的全面和有效。
步骤S204:对用户的全网网络访问日志信息进行过滤,获取正常用户的全网网络访问日志信息;根据正常用户的全网网络访问日志信息获取正常用户访问的网站的URL的信息和正常用户的用户标识信息。
对用户的全网网络访问日志信息进行过滤,可以过滤掉脏数据,主要包括非正常用户的数据,非正常用户通常可以包括爬虫用户、非正常域名用户、无法识别的用户。
本实施例中,对用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得正常用户的全网网络访问日志信息,其中,非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户;然后,根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的URL的信息和正常用户的用户标识信息。
步骤S206:根据URL的信息,获取URL对应的网页正文。
步骤S208:对网页正文进行热点词提取。
本实施例中,对网页正文进行热点词提取包括:对网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断该词频是否满足设定阈值;提取出满足设定阈值的词组作为热点词。
其中,对网页正文的词组划分和提取操作可以由本领域技术人员根据实际情况采用任意适当的方式,参照相关技术实现,也可以借助于第三方应用和软件进行词组划分和提取。此外,设定阈值可以由本领域技术人员适当设置,本发明对此不作限制。
步骤S210:根据提取的热点词,从获取的网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组变化事件作为与本组主题相对应的单个互联网事件。
本实施例中,每个互联网事件包括同一主题的互联网事件在不同时间的变化事件。例如,“房姐”主题事件包括一系列不同时间的变化事件,如开始被披露的事件,接着被详细公开的事件,然后被调查的事件,最后被如何处理的事件等等一系列随着时间推移这一主题事件的变化事件。本实施例中,在获取到一组相同主题的互联网事件的变化事件后,将该主题对应的一系列变化事件作为该主题的单个互联网事件,如将上述“房姐”主题事件包括的一系列变化事件,作为一个“房姐”主题的互联网事件,也即,一系列的“房姐”变化事件被认为是一个“房姐”事件。
优选地,还可以根据预设的关键词和提取的热点词,从获取的网页正文中提取出互联网事件。这是因为,如果预设了关键词,则可以结合提取的热点词更为快速全面地提取事件,为事件分组。
步骤S212:获取访问互联网事件的正常用户的用户标识信息。
本实施例中,根据互联网事件对应的所有变化事件,确定各个变化事件对应的URL;根据过滤后的全网网络访问日志信息,确定访问各个变化事件对应的URL的正常用户的用户标识信息。
通过过滤后的全网网络访问日志信息,可以获取用户访问的URL与用户的用户标识之间的对应关系。而一个主题的互联网事件本质上包括一系列的变化事件,这一系列的变化事件均对应有相应的URL,根据URL与用户标识之间的对应关系,即可确定访问某个互联网事件的那些用户的用户标识信息。
步骤S214:根据用户标识信息和设置的人群分组样本库,分别确定访问互联网事件的正常用户所在的人群分组,进而获取各个人群分组的属性信息。
其中,人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息。
步骤S216:根据获取的各个人群分组的属性信息,确定互联网事件的事件人群信息。
通过本实施例,能够直接得到互联网事件的相关人群的信息,从而能够了解到关注该互联网事件的人群的相关特征、属性等,进而,该事件的相关者能够根据这些信息对该事件进行深入分析,给出合理的应对策略,以正确引导该事件的舆情用户。
实施例三
参照图3,示出了根据本发明实施例三的一种互联网事件分析方法的步骤流程图。
本实施例的互联网事件分析方法包括以下步骤:
步骤S302:获取用户的全网网络访问日志信息。
用户的全网网络访问日志信息可能是跨多个网络的,本步骤中,可以通过获取主干网的镜像流量,即主干网流量的镜像数据,从而获取用户访问全网的全网网络访问日志信息。
步骤S304:对获取的用户的全网网络访问日志信息进行过滤,过滤掉包括非正常用户的访问数据在内的脏数据,获得正常用户的全网网络访问日志信息,进而获得正常用户访问的网站的URL和正常用户的UID。
如,过滤掉爬虫用户、非正常域名用户或者无法识别的用户的全网网络访问日志信息。过滤后的数据主要包括正常用户访问的网站的URL的信息正常用户的UID。优选地,还可以包括访问时间以及地区的信息。其中,UID是用户ID(标识),用以标注用户名;访问时间以及地区用于标识用户对某个URL的访问时间及该用户所在的地区。
步骤S306:根据正常用户访问的网站的URL,获取网站访问内容,进行网页正文抽取。
步骤S308:将抽取的网页正文的内容进行分析、分词,提取词组并计算出词组的词频,按照设定阈值提取热点词。
也即,对网页正文进行分析,词组划分和提取,之后计算提取出的词组的词频,将词频满足设定阈值的词组作为热点词。
步骤S310:根据热点词、预定义的关键词,抽取出多个不同主题的互联网事件。
其中,每个互联网事件可以包括一组相同主题的相关事件(即变化事件)。
步骤S312:以互联网事件为基准,统计出用户访问信息列表,其中包括访问互联网事件的用户的UID。
本步骤中,以各个互联网事件为基准,统计出用户访问信息列表,也即,对某个互联网事件来说,统计出访问该事件的所有用户的相关访问信息,包括UID。
步骤S314:访问人群分组样本库,根据访问互联网事件的用户的UID,确定互联网事件的事件人群信息。
人群分组样本库已定义好人群分组,根据UID即可确定访问某个互联网事件的人群分组情况,获得人群分组的属性信息,进而获得该互联网事件相关的事件人群信息。例如,“房姐”事件的访问用户有1000个,通过用户的UID和人群分组样本库,确定这1000个用户中有600个属于偏向激进的青年分组,有200个属于偏向中性的青年分组,还有200个偏向激进的中年分组,据此,可以了解,“房姐”事件的事件人群信息包括:被大多数青年用户关注,大多数关注该事件的用户偏向于激进等一系列的相关信息。
步骤S316:展现互联网事件的事件人群信息。
本步骤为可选步骤,以便于相关互联网事件管理者或相关者从人群角度深入了解和分析该事件,进而可以给出相应的应对策略。互联网事件的事件人群信息可以以任意适当的方式展现,如以图形方式或列表方式等等,本发明对此不作限制。
所有正常用户访问的网站都执行上述步骤,最终形成一个全网的网站事件人群关系。
通过本实施例,提供了一种对互联网事件对应人群进行分析的方案,能够挖据互联网事件背后的具体人群信息,通过该方案能够直接给出互联网事件相关的人群信息,从而能够了解到关注互联网事件的人群的特征、属性等相关具体信息,以对互联网事件进行更深层次地分析、防止互联网事件发展,并给出合理的应对措施。
实施例四
参照图4,示出了根据本发明实施例四的一种互联网事件分析装置的结构框图。
本实施例的互联网事件分析装置包括:第一获取模块402,用于根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的URL的信息和正常用户的用户标识信息;第一提取模块404,用于根据URL的信息,获取URL对应的网页正文,并对网页正文进行热点词提取;第二提取模块406,用于根据提取的热点词,从获取的网页正文中提取出互联网事件,其中,每组互联网事件包括同一主题的互联网事件在不同时间的变化事件;第二获取模块408,用于获取访问互联网事件的正常用户的用户标识信息;第三获取模块410,用于根据用户标识信息和设置的人群分组样本库,分别确定正常用户所在的人群分组,获取各个人群分组的属性信息,其中,人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;确定模块412,用于根据获取的各个人群分组的属性信息,确定互联网事件的事件人群信息。
优选地,第一提取模块404在对网页正文进行热点词提取时,对网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断词频是否满足设定阈值;提取出满足设定阈值的词组作为热点词。
优选地,第二提取模块406,用于根据提取的热点词,从获取的网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组所述变化事件作为与本组主题相对应的单个互联网事件。
优选地,第二提取模块406,用于根据预设的关键词和提取的热点词,从获取的网页正文中提取出互联网事件。
优选地,第二获取模块408,用于根据互联网事件对应的所有变化事件,确定各个变化事件对应的URL;根据过滤后的全网网络访问日志信息,确定访问各个变化事件对应的URL的正常用户的用户标识信息。
优选地,本实施例的互联网事件分析装置还包括:第四获取模块414,用于在第一获取模块402根据正常用户的全网网络访问日志信息,获取正常用户访问的网站的URL的信息和所述正常用户的用户标识信息之前,获取用户的全网网络访问日志信息;对用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得正常用户的全网网络访问日志信息,其中,非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
优选地,第四获取模块414通过获取主干网流量的镜像数据,获取用户的全网网络访问日志信息。
本实施例的互联网事件分析装置用于实现前述多个方法实施例中相应的互联网事件分析方法,并具有相应的方法实施例的有益效果,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种互联网事件分析方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种互联网事件分析方法,其特征在于,包括:
根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;
根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;
根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;
获取访问所述互联网事件的所述正常用户的用户标识信息;
根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;
根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息;
其中,所述根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件的步骤包括:
根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;
将每组所述变化事件作为与本组主题相对应的单个互联网事件。
2.根据权利要求1所述的方法,其特征在于,所述获取访问所述互联网事件的所述正常用户的用户标识信息的步骤包括:
根据所述互联网事件对应的所有变化事件,确定各个所述变化事件对应的URL;
根据过滤后的所述全网网络访问日志信息,确定访问所述各个变化事件对应的URL的正常用户的用户标识信息。
3.根据权利要求1所述的方法,其特征在于,在所述根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息和所述正常用户的用户标识信息的步骤之前,还包括:
获取用户的全网网络访问日志信息;
对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
4.根据权利要求1所述的方法,其特征在于,所述对所述网页正文进行热点词提取的步骤包括:
对所述网页正文进行词组划分和提取操作;
计算提取出的词组的词频,并判断所述词频是否满足设定阈值;
提取出满足所述设定阈值的词组作为所述热点词。
5.一种互联网事件分析装置,其特征在于,包括:
第一获取模块,用于根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;
第一提取模块,用于根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;
第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;
第二获取模块,用于获取访问所述互联网事件的所述正常用户的用户标识信息;
第三获取模块,用于根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;
确定模块,用于根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息;
其中,所述第二提取模块,还用于根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组所述变化事件作为与本组主题相对应的单个互联网事件。
6.根据权利要求5所述的装置,其特征在于,所述第三获取模块,用于根据所述互联网事件对应的所有变化事件,确定各个所述变化事件对应的URL;根据过滤后的所述全网网络访问日志信息,确定访问所述各个变化事件对应的URL的正常用户的用户标识信息。
7.根据权利要求5所述的装置,其特征在于,还包括:
第四获取模块,用于在所述第一获取模块根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息和所述正常用户的用户标识信息之前,获取用户的全网网络访问日志信息;对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
8.根据权利要求5所述的装置,其特征在于,所述第一提取模块在对所述网页正文进行热点词提取时,对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。
CN201310084577.0A 2013-03-15 2013-03-15 互联网事件分析方法与装置 Active CN103188347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310084577.0A CN103188347B (zh) 2013-03-15 2013-03-15 互联网事件分析方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310084577.0A CN103188347B (zh) 2013-03-15 2013-03-15 互联网事件分析方法与装置

Publications (2)

Publication Number Publication Date
CN103188347A CN103188347A (zh) 2013-07-03
CN103188347B true CN103188347B (zh) 2016-03-30

Family

ID=48679309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310084577.0A Active CN103188347B (zh) 2013-03-15 2013-03-15 互联网事件分析方法与装置

Country Status (1)

Country Link
CN (1) CN103188347B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400576B (zh) * 2013-07-18 2015-11-25 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
CN104954234B (zh) * 2015-05-19 2018-08-14 中国地质大学(北京) 一种微博数据获取方法、装置及舆情分析方法
CN106815651A (zh) * 2015-11-27 2017-06-09 亿阳信通股份有限公司 一种社会公共事件风险预警方法及系统
CN106095839B (zh) * 2016-06-03 2020-02-14 网智天元科技集团股份有限公司 特定观影群体数据的提取及其处理方法
CN109145179B (zh) * 2017-07-26 2019-04-19 北京数安鑫云信息技术有限公司 一种爬虫行为检测方法及装置
CN107798112A (zh) * 2017-11-02 2018-03-13 国影(北京)科技有限责任公司 一种舆情信息处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN102456199A (zh) * 2010-10-18 2012-05-16 北京学之途网络科技有限公司 互联网用户样本集的扩充、属性参数获取方法及装置
CN102710795A (zh) * 2012-06-20 2012-10-03 奇智软件(北京)有限公司 热点聚合方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102456199A (zh) * 2010-10-18 2012-05-16 北京学之途网络科技有限公司 互联网用户样本集的扩充、属性参数获取方法及装置
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN102710795A (zh) * 2012-06-20 2012-10-03 奇智软件(北京)有限公司 热点聚合方法及装置

Also Published As

Publication number Publication date
CN103188347A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
CN103188347B (zh) 互联网事件分析方法与装置
CN104391979B (zh) 网络恶意爬虫识别方法及装置
CN103218410A (zh) 互联网事件分析方法与装置
Kollanyi et al. Bots and automation over Twitter during the first US presidential debate
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
CN101820413B (zh) 一种网络安全最佳防护策略的选择方法
CN104424277B (zh) 举报信息的处理方法及装置
CN110351280A (zh) 一种威胁情报提取的方法、系统、设备及可读存储介质
CN105357054A (zh) 网站流量分析方法、装置和电子设备
CN108768921B (zh) 一种基于特征检测的恶意网页发现方法及系统
CN104462509A (zh) 垃圾评论检测方法及装置
CN109104456A (zh) 一种基于浏览器指纹的用户追踪与传播统计分析方法
CN101504673A (zh) 一种识别疑似仿冒网站的方法与系统
US20150047042A1 (en) Techniques for validating distributed denial of service attacks based on social media content
CN106534146A (zh) 一种安全监测系统及方法
CN103841123A (zh) 号码信息获取方法和获取系统、云端号码信息系统
CN103218412A (zh) 舆情信息处理方法与装置
CN105516390B (zh) 域名管理的方法和装置
CN114422211B (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN103401849A (zh) 一种网站日志异常会话分析方法
CN104298782A (zh) 互联网用户主动访问行为轨迹的分析方法
CN103906066B (zh) 一种用户生成内容提及的骚扰屏蔽方法和装置
CN102571922B (zh) 一种数据流处理方法及装置
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant