CN111049818A - 一种基于网络流量大数据的异常信息发现方法 - Google Patents
一种基于网络流量大数据的异常信息发现方法 Download PDFInfo
- Publication number
- CN111049818A CN111049818A CN201911240506.9A CN201911240506A CN111049818A CN 111049818 A CN111049818 A CN 111049818A CN 201911240506 A CN201911240506 A CN 201911240506A CN 111049818 A CN111049818 A CN 111049818A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- network
- abnormal information
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0263—Rule management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于网络流量大数据的异常信息发现方法,涉及网络安全和大数据技术领域,能够利用人工智能技术发挥网络流量大数据的优势,扩展数据维度、增大数据挖掘深度、提高异常发现敏捷性,有效提高刑侦稽查的工作效率;该方法包括:对网络流量数据预处理和解析;按用户标识聚合得到用户时序轨迹数据;提取地理位置信息并聚合,得到空间索引数据;提取用户属性;按用户聚合,得到用户的话单关系网络和社交关系网络;对前述数据进行融合,获得空间特征、社交关系标签、抽象语义轨迹和设备与账号标签,并扩展用户的标签;设定异常信息的匹配规则;进行异常信息匹配得到异常信息并输出。本发明提供的技术方案适用于网络异常信息发现的过程中。
Description
【技术领域】
本发明涉及网络安全和大数据技术领域,尤其涉及一种基于网络流量大数据的异常信息发现方法。
【背景技术】
随着移动设备的普及,以及移动互联网、物联网的大力发展,每个人、每台设备都成为了社会信息网络中的一个节点。人们的生活、工作、学习已经和网络密不可分,每一次点击和操作都将产生流量,从而在网络中留下痕迹。网络流量大数据包含用户标识、时间戳、接入基站信息、访问HOST、访问URL,如果含有话单数据,则还包含通话时间、通话时长、通话对端用户标识。可以认为网络世界是真实世界的某种映射,网络中出现的异常信息往往对应着现实世界中的一些异常事件。如果能从网络流量数据中发现不利于社会稳定的异常事件的发生(例如逃窜人员、网络诈骗、非法聚众等等),这样就能及早作出应对,防患于未然,维持社会治安。
目前,常用的异常信息发现方法,将异常信息局限在应用层面(使用了某个特定APP),更深层的发现方法能到简单的行为层(在某个特定APP内进行了特定的操作,例如点击某按钮),即:根据专家知识提炼出异常信息对应的URL正则公式,然后对网络流量大数据进行匹配。这样的方法过于简单,没有发挥出大数据真正的价值,而且容易被反侦查混淆,并且在发现异常的时候,事件已经发生,无法做到预防告警的目的。
因此,有必要研究一种新型的基于网络流量大数据的异常信息发现方法,充分利用大数据以及人工智能技术,来应对现有技术的不足,以解决或减轻上述一个或多个问题。
【发明内容】
有鉴于此,本发明提供了一种基于网络流量大数据的异常信息发现方法,通过人工智能技术充分发挥网络流量大数据的优势,扩展数据维度、增大数据挖掘深度、提高异常发现敏捷性,实现异常信息的自动化发现和推送,有效提高刑侦稽查以及治安维护的工作效率。
一方面,本发明提供一种基于网络流量大数据的异常信息发现方法,其特征在于,所述方法的步骤包括:
S1、对网络流量数据进行预处理,按预先设置好的规则过滤数据;
S2、对预处理后的网络流量数据进行解析,并将解析结果添加到相应的字段当中;
S3、对S2中解析后的数据按用户标识进行聚合,得到用户时序轨迹数据;
S4、对S2中解析后的数据进行处理,提取地理位置信息,并对地理位置信息进行周期性的聚合,得到空间索引数据;
S5、对S2中解析后的数据进行处理,提取用户属性;
S6、对S2中解析后的数据按用户进行聚合,得到用户的话单关系网络和社交关系网络;
S7、对S3、S4、S5和/或S6中的数据进行融合,获得空间特征、用户的社交关系标签、用户的抽象语义轨迹和用户的设备与账号标签,并扩展用户的标签;
S8、设定异常信息的匹配规则;
S9、根据匹配规则进行异常信息匹配,得到异常信息并输出;
S3~S6的顺序不固定。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述解析结果包括访问领域、访问应用、访问行为和访问内容;所述解析结果成为原始数据的一部分,为后续分析提供数据支撑。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对网络流量数据的预处理包括对数据进行清洗过滤,过滤的数据包括特殊数据和异常数据;
所述特殊数据包括预先设置好的用户白名单、URL白名单、HOST白名单以及区域白名单;
所述异常数据是在收集和传输过程中由于不可控因素造成的数据缺失以及数据噪声;所述异常数据包括字段丢失、地理位置偏移不符合要求和字段不符合要求的数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S3具体内容包括:对S2中每个用户的数据进行聚合处理,得到每个用户按时间顺序所对应的流量轨迹,每个轨迹点包含流量产生时间、流量产生地点、访问领域、访问应用和访问行为;
聚合周期根据数据的具体情况而定;
聚合后将用户时序轨迹数据存储在时序数据库中。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S4的具体内容包括:提取S2中数据的地理位置信息,建立索引,对每个位置索引进行周期性聚合后得到该周期内在该索引代表范围内出现过的用户、领域、应用、行为和内容,获得空间索引数据;
地理位置信息包括基站信息、经纬度、街道名称和楼宇名称。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S5中用户属性包括第一用户属性和第二用户属性;
第一用户属性为:用户访问流量中携带的明文属性信息;
第二用户属性为:根据用户访问流量中的信息进行互联网爬取,进而提炼得到的互联网属性信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S6中话单关系网络获得方式为:提取用户所有的通话记录,统计每个通话对象对应的通话频次和通话时长,并对其进行排序,过滤掉陌生人的通话关系,从而建立用户的话单关系网络;
所述S6中社交关系网络的获得方式为:从用户访问的流量中获取用户的相关社交账号主页,再获取用户的关注列表以及被关注列表,从而获取用户的社交关系网络。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S7的具体步骤包括:
S71、对S4中的空间索引数据进行聚类模型分析,并融合S5和S6中的数据,提取空间特征;
S72、对S5中的用户属性进行自然语言处理模型分析,并融合S3、S4和S6中的数据,扩展用户的标签;
S73、对S6中的话单关系网络和社交关系网络进行关系网模型分析,并融合S3、S4和S5中的数据,得到用户的社交关系标签;
S74、对S3中的用户时序轨迹数据进行过滤,并融合S4、S5和S6中的数据,得到用户的抽象语义轨迹;
S75、对S5中的用户属性进行信息提取和聚合,得到用户的设备与账号标签;
S71~S75的顺序不固定。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S8中的匹配规则包括:模式匹配规则和深度学习模型规则。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S9中异常信息包括异常用户、异常区域、异常应用和异常群体;匹配方式为实时匹配和/或离线匹配。
与现有技术相比,本发明可以获得包括以下技术效果:本发明基于网络流量大数据,将时序数据、空间数据、互联网数据相融合的异常信息发现方法,通过数据融合的方式扩展数据维度,通过人工智能分析增大数据挖掘的深度,通过灵活的规则配置提升异常信息发现的敏捷性,做到异常信息的自动化发现,信息自动推送,发挥了网络流量大数据的优势,有效提高了刑侦稽查以及治安维护的工作效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例提供的基于网络流量大数据的异常信息发现方法的流程示意图;
图2是本发明一个实施例提供的利用人工智能技术设计的异常用户匹配模型结构图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了解决现有技术的不足,本发明提供一种基于网络流量大数据,将时序数据、空间数据、互联网数据相融合的异常信息发现方法。该方法对网络流量大数据进行横向的数据融合以扩展数据维度,进行纵向的人工智能模型分析以提取流量中的抽象语义信息,同时提供规则匹配模块,能进行各种维度和规则的异常信息配置。数据与规则配置相匹配,最终输出异常信息。
基于网络流量大数据的异常信息发现方法,步骤包括:
步骤1、对网络流量数据进行预处理,按预先设置好的规则过滤数据;
对数据的预处理操作主要是对数据进行清洗过滤,过滤数据分为特殊数据和异常数据。特殊数据包括但不限于预先设置好的用户白名单、URL白名单、HOST白名单以及区域白名单。出现在上述白名单中的数据具有特殊意义,将不进行后续分析,故将其滤除。异常数据是指在收集和传输过程中由于不可控因素造成的数据缺失以及数据噪声,包括但不限于字段丢失、地理位置偏移较大和字段不符合要求。
步骤2、对预处理后的网络流量数据进行智能解析,解析结果包括访问领域、访问应用、访问行为和访问内容,并将上述属性添加到相应的字段当中;
对每一条流量数据进行智能解析,解析结果成为原始数据的一部分,增大数据维度,为后续分析提供数据支撑。对流量数据进行拆解,可获取流量中携带的明文字段信息。通过公开互联网数据、自有知识库以及其他第三方数据的辅助,可获取到流量对应的具体内容。根据专家知识,可将流量映射到对应的领域、应用、行为。
步骤3、用户轨迹模块的处理,此模块按用户标识进行聚合,即,得到用户时序轨迹数据;
此步骤针对步骤2中每个用户的数据进行聚合处理,得到每个用户按时间顺序所对应的流量轨迹,每个轨迹点包含流量产生时间、流量产生地点、访问领域、访问应用和访问行为;
时序轨迹数据表示为一个按时间先后排序的列表USER1:[T1,T2,T3,T4,…],其中每一个时序点TN表示为(timeN,basestationN,domainN,appN,actionN,locationN),其中timeN为时间戳,basestationN为基站ID,domainN为访问领域,appN为访问应用,actionN为访问行为,locationN为地理位置信息。聚合周期视数据量大小而定,可以是一小时,一天或者一周等等,聚合后将时序轨迹数据存储在时序数据库中。
步骤4、空间索引模块的处理,此模块对地理位置数据进行周期性的聚合,得到空间索引数据;
此步骤对步骤2中的数据提取地理位置信息,建立索引,对每个位置索引进行周期性聚合后得到该周期内在该索引代表范围内出现过的用户、领域、应用、行为和内容;即对索引进行周期性的聚合,得到空间索引数据;
该步骤中地理位置信息可以是基站信息,也可以是步骤2中解析内容携带的地理位置信息,例如经纬度、街道名称、楼宇名称。对于基站信息,可以将基站ID直接作为索引使用。如果是经纬度信息,则可以通过空间索引算法(如Geohash、Google S2等)将其索引到一个空间ID,该空间ID代表一块固定大小固定位置的地理范围。如果是街道名称、楼宇名称等位置信息,则通过位置服务提供商(例如百度地图、高德地图等)的接口将其转化成经纬度,进而索引到空间ID。得到索引值之后,则对原始数据按索引进行聚合,得到每一个地理位置索引的数据集合,包括用户集合、应用集合和行为集合。同一集合中不会出现相同标识,不同基站的集合中可能出现相同标识。
步骤5、用户画像模块的处理,提取用户属性;
此步骤针对步骤2中的数据进行处理,用户属性由两部分构成,一部分是用户访问流量中携带的明文属性信息,另一部分是根据用户访问流量中的信息进行互联网爬取,进而提炼得到的互联网属性信息;
对流量数据进行拆解,可获取流量中携带的明文字段信息,对明文字段信息进行筛选过滤可得到用户的部分属性信息,例如年龄、性别、手机型号等。通过公开互联网数据、自有知识库以及其他第三方数据的辅助,可以获取到流量对应的访问内容,通过自然语言处理技术对访问内容进行关键词提取以及主题分析,也能得到用户相关的属性。
步骤6、社会关系发现模块的处理,得到用户的话单关系网络和社交关系网络;
此步骤针对步骤2中的数据进行处理;此模块对每个用户的数据进行聚合,并进行社会关系的智能挖掘;用户社会关系由两部分构成,一部分是从话单数据中挖掘的话单网络关系,另一部分是根据用户访问流量中的明文信息进行互联网爬取,进而得到的用户的社交网络关系;
对于话单数据,数据中包含了通话时间、通话时长、通话对端用户标识等信息。提取用户所有的通话记录,统计每个通话对象对应的通话频次、通话时长,并对其排序、过滤,并过滤掉陌生人的通话关系(例如快递、外卖等等),从而建立用户的话单关系网络。
对于社交关系,可以从用户访问的流量中获取用户的相关社交账号主页,进而获取用户的关注列表以及被关注列表,从而获取用户的社交关系网络。例如在用户画像模块得到某用户的的微博账号为@上海阿甘,通过搜索微博用户@上海阿甘能够到达该用户的微博主页,进而获取其关注列表和被关注列表,然后从中去除公众人物账号,便得到了该用户的微博社交关系。
步骤7、对步骤3、步骤4、步骤5和步骤6中的数据进行融合。
数据融合的具体步骤包括:
步骤7.1、对步骤4中的地理位置索引数据进行聚类模型分析,并融合步骤5和步骤6中的数据,提取空间特征;
地理位置索引数据包含数据中出现的所有地理位置所构建的地理位置索引,以及索引代表范围中出现的用户、领域、应用、行为,通过对地理位置索引进行基于距离以及用户密度的聚类模型分析,能够得到用户常出现的地理区域(每个区域包含多个索引)。根据每个聚集区域内的用户常访问领域、应用、行为,融合用户画像模块提取的用户属性,互联网爬取数据,融合社交关系发现模块中提取的用户社交属性,得到地理位置的深层空间特征。例如聚类得到的某区域p1,此区域内用户常使用作业帮、猿搜题等学习类应用,用户画像中大部分年龄属于10至15岁之间,访问的文章经过提取之后带有“中考”、“学习资料”、“班主任”等关键词,且社交关系网络中的用户经常聚集在同一区域,则大概率课判断区域p1为一所学校。诸如此类的空间特征还有超市、写字楼、医院等等。
步骤7.2、对步骤5中的用户画像数据进行自然语言处理模型分析,并融合步骤3、步骤4和步骤6中的数据,扩展用户的标签;
通过对互联网爬取内容进行自然语言模型分析,可以提取用户的兴趣标签,例如学术、体育、明星等等。通过融合步骤3所述轨迹数据以及步骤4所述空间索引数据,可以提取用户的职业标签。例如某用户访问的文章经过自然语言处理分析后,提取到的关键词中频次较高的有“股票”、“上市”、“资本”、“风险管理”等,出现过的地理区域主要在写字楼当中,且活动轨迹为两点一线式,则大概率可以判断此用户为金融从业者,可以为其打上金融相关标签。
步骤7.3、对步骤6中的社交关系数据进行关系网模型分析,并融合步骤3、步骤4和步骤5中的数据,得到用户的社交关系标签;
通过统计某用户社会关系网络的深度、广度以及社交频次,可以判断该用户的性格特征为内向还是外向。通过对该用户社会关系网络中其他用户的用户画像标签进行统计,可以为该用户打上相同标签。
步骤7.1中的聚类模型,步骤7.2中的自然语言处理模型,步骤7.3中的关系网模型分析,都属于人工智能的方法和手段。
步骤7.4、对步骤3中的轨迹数据进行过滤,并融合步骤4、步骤5、和步骤6中的数据,得到用户的抽象语义轨迹;通过步骤7.1已经建立的空间特征信息,将其对应到用户的时序轨迹中,可以提取得到用户用户的抽象语义轨迹,例如家->学校->家->学校->家,家->公司->餐厅->公司->健身房->家。
步骤7.5、对步骤5中的用户画像数据进行信息提取以及聚合,得到用户的设备与账号标签。
对流量数据携带的明文字段信息进行判断,提取出用户的设备信息,例如手机品牌、手机型号、CPU型号、屏幕分辨率等等。对用户画像产出数据进行过滤,提取多机多账号用户。一个用户拥有多个同APP社交账号(例如wechat_uin、微博昵称、qq号),这种现象通常是由用户无意或者有意切换账号而造成的。一个用户拥有多个手机号,这类现象通常是在用户无意或者有意的情况下,上网设备在不同网络下切换造成的。多机多账号信息对于技侦人员追踪犯罪份子有着巨大的帮助。
步骤8、结合步骤3~步骤7中的数据,设计异常信息的匹配规则。
匹配规则可以是灵活而多变的,主要分为两部分。
一部分是模式匹配规则,模式匹配可针对不同目标(用户、区域、应用、群体等等)设计不同的模式匹配规则。(1)针对用户,可以是使用过某应用的用户、按顺序使用了应用1->应用2->行为1->行为2的用户、在某地p使用应用1超过一定阈值t的用户、年龄在区间q内,且常出现在某地p的男性用户等等。(2)针对应用、可以是在某地区p使用频次激增的应用、使用人数激增的应用等等。(3)针对区域,可以是出现人数激增的区域、某应用使用激增的区域等等。(4)针对群体,可以是和某人有社交关系的群体、关注某热点事件的群体等等。
另一部分是深度学习模型规则,通过模式匹配规则匹配到一定的异常信息后,可以将其作为训练数据进行训练。模型训练部分将用户的时序轨迹数据、空间特征数据、用户画像标签以及社交关系标签作为训练特征,以异常标签作为训练目标,最终得到稳定收敛的模型。
一种可行的异常用户识别模型结构如图2所示(深度学习模型规则)。该模型的输入为步骤2至步骤7所得的数据,从数据类型上可划分为用户画像特征、用户标签特征、用户统计特征、用户时序轨迹特征,从数值类型上可划分为连续特征,离散特征。经过离散化处理后,依次经过词嵌入层、全连接层、特征拼接层、若干卷积层、输出层,最终输出异常概率。
离散特征表现为可穷举的若干值,例如对于性别这项特征,只有男/女两个选项,可将其表示为0/1。连续特征表现为无法穷举的连续值(或者穷举个数较大的连续值),例如年龄这项特征。离散化处理会将连续特征离散化,能更好的被模型理解,例如对于年龄这项特征,20岁和21岁并没有太大的区别,离散化处理将其分为(0,18]、(18,25]、(25,30]、(30,40]、(40,50]、(50,60]、(60,+∞]7个区间,并以离散值0~6表征。
词嵌入层会将输入的离散特征映射成向量,这样模型可以对特征值之间进行距离的计算,从而对特征值进行“理解”,例如对于职业这项特征,医生和护士所得到的嵌入向量之间的距离会较近、但医生和警察所对应的嵌入向量之间距离会较远。对于用户时序特征,每个时间点TN表示为(timeN,basestationN,domainN,appN,actionN,locationN),其嵌入向量由basestationN、domainN、appN、actionN、locationN的嵌入向量拼接而成。
不同数据类型的特征得到嵌入向量后,会进入各自的全连接层。全连接层会对所有特征进行两两组合,得到交叉特征。对于时序特征,先经过一个双向循环神经网络,然后接入全连接层,这样能够提取用户的动态轨迹特征,对于异常的行为轨迹抓取非常有效。
特征拼接层对不同数据类型的交叉特征进行拼接,得到用户的全局特征向量。
卷积层对用户的全局特征向量进行卷积运算,提取全局交叉特征。每一卷积层会有若干卷积核,对用户全局特征进行不同角度的特征进行提取,然后输入到下一卷积层。随着卷积层数的越来越深,所提取的特征越来越抽象化。卷积层的数量根据训练效果进行调节。
输出层对卷积层特征进行组合,输出用户属于异常用户的概率。如果概率大于一个阈值,则判定为异常用户。该阈值属于一个经验值,可根据实际效果进行调节。
深度学习模型规则能够融合多维数据,通过大量数据的训练,充分提取异常事件的抽象特征,进而总结出异常事件发生的隐含规律,这种隐含的规律体现在模型数以亿计的参数当中,是人工无法根据有限的经验提取总结出来的。深度模型规则输出的是高概率事件,然后由相关工作人员决定是否作为异常事件处理,这样大大增加了异常事件的覆盖范围。
步骤9、结合步骤8中的匹配规则,对网络流量数据(即步骤2至步骤7中的所有数据)进行异常信息的综合匹配,得到异常信息,并将其输出告警。异常信息包含但不限于异常用户、异常区域、异常应用和异常群体。匹配方式可以是实时匹配,也可以是离线匹配。
上述步骤中步骤3~步骤6以及步骤7.1~步骤7.5两部分内部的顺序可以更换。
以上对本申请实施例所提供的一种基于网络流量大数据的异常信息发现方法,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求书的保护范围内。
Claims (10)
1.一种基于网络流量大数据的异常信息发现方法,其特征在于,所述方法的步骤包括:
S1、对网络流量数据进行预处理,按预先设置好的规则过滤数据;
S2、对预处理后的网络流量数据进行解析,并将解析结果添加到相应的字段当中;
S3、对S2中解析后的数据按用户标识进行聚合,得到用户时序轨迹数据;
S4、对S2中解析后的数据进行处理,提取地理位置信息,并对地理位置信息进行周期性的聚合,得到空间索引数据;
S5、对S2中解析后的数据进行处理,提取用户属性;
S6、对S2中解析后的数据按用户进行聚合,得到用户的话单关系网络和社交关系网络;
S7、对S3、S4、S5和/或S6中的数据进行融合,获得空间特征、用户的社交关系标签、用户的抽象语义轨迹和用户的设备与账号标签,并扩展用户的标签;
S8、设定异常信息的匹配规则;
S9、根据匹配规则进行异常信息匹配,得到异常信息并输出;
S3~S6的顺序不固定。
2.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述解析结果包括访问领域、访问应用、访问行为和访问内容;所述解析结果成为原始数据的一部分,为后续分析提供数据支撑。
3.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,对网络流量数据的预处理包括对数据进行清洗过滤,过滤的数据包括特殊数据和异常数据;
所述特殊数据包括预先设置好的用户白名单、URL白名单、HOST白名单以及区域白名单;
所述异常数据是在收集和传输过程中由于不可控因素造成的数据缺失以及数据噪声;所述异常数据包括字段丢失、地理位置偏移不符合要求和字段不符合要求的数据。
4.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述S3具体内容包括:对S2中每个用户的数据进行聚合处理,得到每个用户按时间顺序所对应的流量轨迹,每个轨迹点包含流量产生时间、流量产生地点、访问领域、访问应用和访问行为;
聚合周期根据数据的具体情况而定。
5.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述S4的具体内容包括:提取S2中数据的地理位置信息,建立索引,对每个位置索引进行周期性聚合后得到该周期内在该索引代表范围内出现过的用户、领域、应用、行为和内容,获得空间索引数据;
地理位置信息包括基站信息、经纬度、街道名称和楼宇名称。
6.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述S5中用户属性包括第一用户属性和第二用户属性;
第一用户属性为:用户访问流量中携带的明文属性信息;
第二用户属性为:根据用户访问流量中的信息进行互联网爬取,进而提炼得到的互联网属性信息。
7.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述S6中话单关系网络获得方式为:提取用户所有的通话记录,统计每个通话对象对应的通话频次、通话时间和通话时长,并对其进行排序,过滤掉陌生人的通话关系,从而建立用户的话单关系网络;
所述S6中社交关系网络的获得方式为:从用户访问的流量中获取用户的相关社交账号主页,再获取用户的关注列表以及被关注列表,从而获取用户的社交关系网络。
8.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述S7的具体步骤包括:
S71、对S4中的空间索引数据进行聚类模型分析,并融合S5和S6中的数据,提取空间特征;
S72、对S5中的用户属性进行自然语言处理模型分析,并融合S3、S4和S6中的数据,扩展用户的标签;
S73、对S6中的话单关系网络和社交关系网络进行关系网模型分析,并融合S3、S4和S5中的数据,得到用户的社交关系标签;
S74、对S3中的用户时序轨迹数据进行过滤,并融合S4、S5和S6中的数据,得到用户的抽象语义轨迹;
S75、对S5中的用户属性进行信息提取和聚合,得到用户的设备与账号标签;
S71~S75的顺序不固定。
9.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述S8中的匹配规则包括:模式匹配规则和深度学习模型规则。
10.根据权利要求1所述的基于网络流量大数据的异常信息发现方法,其特征在于,所述S9中异常信息包括异常用户、异常区域、异常应用和异常群体;匹配方式为实时匹配和/或离线匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911240506.9A CN111049818B (zh) | 2019-12-03 | 2019-12-03 | 一种基于网络流量大数据的异常信息发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911240506.9A CN111049818B (zh) | 2019-12-03 | 2019-12-03 | 一种基于网络流量大数据的异常信息发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111049818A true CN111049818A (zh) | 2020-04-21 |
CN111049818B CN111049818B (zh) | 2020-10-09 |
Family
ID=70234965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911240506.9A Active CN111049818B (zh) | 2019-12-03 | 2019-12-03 | 一种基于网络流量大数据的异常信息发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111049818B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695019A (zh) * | 2020-06-11 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 一种识别关联账号的方法及装置 |
CN111866001A (zh) * | 2020-07-27 | 2020-10-30 | 周蓉 | 基于大数据和云计算的智能设备数据处理方法及云服务器 |
CN112468523A (zh) * | 2021-02-02 | 2021-03-09 | 北京明略昭辉科技有限公司 | 异常流量检测方法、装置、设备及存储介质 |
CN113946758A (zh) * | 2020-06-30 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021683A1 (en) * | 2003-03-27 | 2005-01-27 | Chris Newton | Method and apparatus for correlating network activity through visualizing network data |
CN104579823A (zh) * | 2014-12-12 | 2015-04-29 | 国家电网公司 | 一种基于大数据流的网络流量异常检测系统及方法 |
CN104717079A (zh) * | 2013-12-12 | 2015-06-17 | 华为技术有限公司 | 网络流量的数据处理方法及装置 |
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
-
2019
- 2019-12-03 CN CN201911240506.9A patent/CN111049818B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021683A1 (en) * | 2003-03-27 | 2005-01-27 | Chris Newton | Method and apparatus for correlating network activity through visualizing network data |
CN104717079A (zh) * | 2013-12-12 | 2015-06-17 | 华为技术有限公司 | 网络流量的数据处理方法及装置 |
CN104579823A (zh) * | 2014-12-12 | 2015-04-29 | 国家电网公司 | 一种基于大数据流的网络流量异常检测系统及方法 |
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695019A (zh) * | 2020-06-11 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 一种识别关联账号的方法及装置 |
CN111695019B (zh) * | 2020-06-11 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种识别关联账号的方法及装置 |
CN113946758A (zh) * | 2020-06-30 | 2022-01-18 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
CN113946758B (zh) * | 2020-06-30 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
CN111866001A (zh) * | 2020-07-27 | 2020-10-30 | 周蓉 | 基于大数据和云计算的智能设备数据处理方法及云服务器 |
CN112468523A (zh) * | 2021-02-02 | 2021-03-09 | 北京明略昭辉科技有限公司 | 异常流量检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111049818B (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111049818B (zh) | 一种基于网络流量大数据的异常信息发现方法 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
Noulas et al. | Exploiting foursquare and cellular data to infer user activity in urban environments | |
CN110781317B (zh) | 事件图谱的构建方法、装置及电子设备 | |
CN110321424B (zh) | 一种基于深度学习的艾滋病人员行为分析方法 | |
Chaniotakis et al. | Use of geotagged social media in urban settings: Empirical evidence on its potential from twitter | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
CN103605738A (zh) | 网页访问数据统计方法及装置 | |
WO2010039700A2 (en) | Event identification in sensor analytics | |
CN107040863A (zh) | 实时业务推荐方法及系统 | |
CN108229810A (zh) | 基于网络信息资源的行业分析系统及方法 | |
CN111131493B (zh) | 一种数据获取、用户画像生成方法、装置 | |
CN104933191A (zh) | 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端 | |
Wu et al. | Extracting disaster information based on Sina Weibo in China: A case study of the 2019 Typhoon Lekima | |
Paul et al. | # outage: Detecting power and communication outages from social networks | |
Ghankutkar et al. | Modelling machine learning for analysing crime news | |
Shen et al. | Information retrieval of a disaster event from cross-platform social media | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
CN108984514A (zh) | 词语的获取方法及装置、存储介质、处理器 | |
CN106844588A (zh) | 一种基于网络爬虫的用户行为数据的分析方法及系统 | |
CN110941757A (zh) | 一种基于大数据的政策信息查询推送系统及方法 | |
Matuszka et al. | On a keyword-lifecycle model for real-time event detection in social network data | |
Dittrich et al. | Is this twitter event a disaster? | |
Fijałkowski et al. | An architecture of a Web recommender system using social network user profiles for e-commerce | |
Sun et al. | Deep convolutional autoencoder for urban land use classification using mobile device data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |