CN106100886A - 一种一体化网络用户行为分析方法 - Google Patents

一种一体化网络用户行为分析方法 Download PDF

Info

Publication number
CN106100886A
CN106100886A CN201610484553.8A CN201610484553A CN106100886A CN 106100886 A CN106100886 A CN 106100886A CN 201610484553 A CN201610484553 A CN 201610484553A CN 106100886 A CN106100886 A CN 106100886A
Authority
CN
China
Prior art keywords
user
packet
analysis
data
analysis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610484553.8A
Other languages
English (en)
Inventor
董雄飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Kurui Network Technology Co Ltd
Original Assignee
Hefei Kurui Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Kurui Network Technology Co Ltd filed Critical Hefei Kurui Network Technology Co Ltd
Priority to CN201610484553.8A priority Critical patent/CN106100886A/zh
Publication of CN106100886A publication Critical patent/CN106100886A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种一体化网络用户行为分析方法,采用高效数据捕获框架PF_RING,减少了拷贝次数和中断次数,能够节省拷贝过程中占用的系统内存,极大地增强系统的数据包捕获效能,提高内核处理数据包效率,实现高速数据包的捕获、过滤和分析,NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的,便于后期分析处理所述用户搜索行为分析采用了基于Mapreduce的编程模型,将任务分布式执行,大大提高了运算的速度,该分析方法可行性强、操作简单,适用于现代网络行为的研究。

Description

一种一体化网络用户行为分析方法
技术领域
本发明属于网络方法领域,更具体地说,本发明涉及一种一体化网络用户行为分析方法。
背景技术
在网络用户行为分析及分类方面,国外起步比较早。一般来说,研究方式主要分为两种一一传统和非传统。传统的方法如纸质问卷调查、电话访谈、电子邮件、实验观察等,它们通常是指在一个相对大的范围内通过直接调查的方式搜集研究对象的资料从而进行研宄分析,属于一种经验性的方法。该方法的优势就是能够获得用户大量的第一手资料,获取方式快速直接。不足之处就是对研究对象的选择有一定要求,需具备代表性。另一方面,被调查者往往基于各种因素不愿意如实汇报最真实的数据。但就目前而言,传统的调查仍然不失为一种较为有效的方式。网络的日新月异和计算机技术的迅猛发展势必使得互联网的普及度越来越高,用户数量不断激增,网络用户行为的研究也随之发生了较大的变革。传统的研究方法逐渐力不从心,非传统的方法应运而生,如用户注册信息和研究、Web日志分析、网络挖掘、流量计量法等。
发明内容
本发明所要解决的问题是提供一种一体化网络用户行为分析方法。
为了实现上述目的,本发明采取的技术方案为:
一种一体化网络用户行为分析方法,包括如下步骤:
(1)数据采集
此时部署在接入网的数据采集设备对数据包进行捕获,一方面执行轻量级的在线分析,另一方面数据将被存储在分布式文件系统中供定期的离线分析;
(2)流量分析
高速的用户上网行为数据包存储在HDFS后,部署在HDFS集群节点中的NetFlow便开始读取离线读取数据包,并通过缓存对数据包进行还原至用户会话级别;
(3)协议分析
流量首先会根据用户进行区分,每个数据包都会有相应的用户与之对应,IPFIX插件对数据流进行协议分析;
(4)内容分析
①用户数据包的重组还原
用户数据包的重组还原是内容分析的第一步。调用分布式存储系统的接口,我们能够获取采集到的一体化网络中用户数据包,然后,借助网络安全开发包工具Libnids的TCP重组功能,并结合HTTP协议的特点,我们能够完成对HTTP协议的解析,还原相应的会话信息。
②搜索行为分析
③微博内容分析
通过对应到微博内容的指定字段,然后采用对应的解码方式进行解码能够得到网络中用户微博的数据内容。
优选的,所述步骤(1)中采用的是高效数据捕获框架PF_RING。
优选的,所述步骤(2)中NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的。
优选的,所述步骤(3)中IPFIX的插件实现主要运用基于动态链接库的插件技术。
优选的,所述步骤(4)中在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析。
优选的,所述步骤(4)中用户搜索行为分析采用了基于Mapreduce的编程模型。
有益效果:本发明提供了一种一体化网络用户行为分析方法,采用高效数据捕获框架PF_RING,减少了拷贝次数和中断次数,能够节省拷贝过程中占用的系统内存,极大地增强系统的数据包捕获效能,提高内核处理数据包效率,实现高速数据包的捕获、过滤和分析,NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的,便于后期分析处理,所述在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析,从HTTP请求便掌握了用户自身主动发起的行为动作,所述用户搜索行为分析采用了基于Mapreduce的编程模型,将任务分布式执行,大大提高了运算的速度,该分析方法可行性强、操作简单,适用于现代网络行为的研究。
具体实施方式
一种一体化网络用户行为分析方法,包括如下步骤:
(1)数据采集
此时部署在接入网的数据采集设备对数据包进行捕获,一方面执行轻量级的在线分析,另一方面数据将被存储在分布式文件系统中供定期的离线分析,所述数据采集设备为采用高效数据捕获框架PF_RING;
(2)流量分析
高速的用户上网行为数据包存储在HDFS后,部署在HDFS集群节点中的NetFlow便开始读取离线读取数据包,并通过缓存对数据包进行还原至用户会话级别,所述NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的;
(3)协议分析
流量首先会根据用户进行区分,每个数据包都会有相应的用户与之对应,IPFIX插件对数据流进行协议分析,所述IPFIX的插件实现主要运用基于动态链接库的插件技术;
(4)内容分析
①用户数据包的重组还原
用户数据包的重组还原是内容分析的第一步。调用分布式存储系统的接口,我们能够获取采集到的一体化网络中用户数据包,然后,借助网络安全开发包工具Libnids的TCP重组功能,并结合HTTP协议的特点,我们能够完成对HTTP协议的解析,还原相应的会话信息,在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析。
②搜索行为分析
用户搜索行为分析采用了基于Mapreduce的编程模型
③微博内容分析
通过对应到微博内容的指定字段,然后采用对应的解码方式进行解码能够得到网络中用户微博的数据内容。
本发明提供了一种一体化网络用户行为分析方法,采用高效数据捕获框架PF_RING,减少了拷贝次数和中断次数,能够节省拷贝过程中占用的系统内存,极大地增强系统的数据包捕获效能,提高内核处理数据包效率,实现高速数据包的捕获、过滤和分析,NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的,便于后期分析处理,所述在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析,从HTTP请求便掌握了用户自身主动发起的行为动作,所述用户搜索行为分析采用了基于Mapreduce的编程模型,将任务分布式执行,大大提高了运算的速度,该分析方法可行性强、操作简单,适用于现代网络行为的研究。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种一体化网络用户行为分析方法,其特征在于,包括如下步骤:
(1)数据采集
此时部署在接入网的数据采集设备对数据包进行捕获,一方面执行轻量级的在线分析,另一方面数据将被存储在分布式文件系统中供定期的离线分析;
(2)流量分析
高速的用户上网行为数据包存储在HDFS后,部署在HDFS集群节点中的NetFlow便开始读取离线读取数据包,并通过缓存对数据包进行还原至用户会话级别;
(3)协议分析
流量首先会根据用户进行区分,每个数据包都会有相应的用户与之对应,IPFIX插件对数据流进行协议分析;
(4)内容分析
①用户数据包的重组还原
用户数据包的重组还原是内容分析的第一步,调用分布式存储系统的接口,我们能够获取采集到的一体化网络中用户数据包,然后,借助网络安全开发包工具Libnids的TCP重组功能,并结合HTTP协议的特点,我们能够完成对HTTP协议的解析,还原相应的会话信息
②搜索行为分析
③微博内容分析
通过对应到微博内容的指定字段,然后采用对应的解码方式进行解码能够得到网络中用户微博的数据内容。
2.按照权利要求1所述的一种一体化网络用户行为分析方法,其特征在于:所述步骤(1)中采用的是高效数据捕获框架PF_RING。
3.按照权利要求1所述的一种一体化网络用户行为分析方法,其特征在于:所述步骤(2)中NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的。
4.按照权利要求3所述的一种一体化网络用户行为分析方法,其特征在于:所述步骤(3)中IPFIX的插件实现主要运用基于动态链接库的插件技术。
5.按照权利要求1所述的一种一体化网络用户行为分析方法,其特征在于:所述步骤(4)中在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析。
6.按照权利要求1所述的一种一体化网络用户行为分析方法,其特征在于:所述步骤(4)中用户搜索行为分析采用了基于Mapreduce的编程模型。
CN201610484553.8A 2016-06-28 2016-06-28 一种一体化网络用户行为分析方法 Withdrawn CN106100886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610484553.8A CN106100886A (zh) 2016-06-28 2016-06-28 一种一体化网络用户行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610484553.8A CN106100886A (zh) 2016-06-28 2016-06-28 一种一体化网络用户行为分析方法

Publications (1)

Publication Number Publication Date
CN106100886A true CN106100886A (zh) 2016-11-09

Family

ID=57213721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610484553.8A Withdrawn CN106100886A (zh) 2016-06-28 2016-06-28 一种一体化网络用户行为分析方法

Country Status (1)

Country Link
CN (1) CN106100886A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818070B (zh) * 2020-07-14 2021-03-02 广州锦行网络科技有限公司 一种windows系统下的录屏方法
CN112905697A (zh) * 2021-02-10 2021-06-04 北京锐服信科技有限公司 一种高速网络数据包捕获方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818070B (zh) * 2020-07-14 2021-03-02 广州锦行网络科技有限公司 一种windows系统下的录屏方法
CN112905697A (zh) * 2021-02-10 2021-06-04 北京锐服信科技有限公司 一种高速网络数据包捕获方法及系统
CN112905697B (zh) * 2021-02-10 2024-04-16 北京锐服信科技有限公司 一种高速网络数据包捕获方法及系统

Similar Documents

Publication Publication Date Title
CN106936667B (zh) 一种基于应用程序流量分布式分析的主机实时识别方法
US20220294821A1 (en) Risk control method, computer device, and readable storage medium
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN106921637A (zh) 网络流量中的应用信息的识别方法和装置
US20110125748A1 (en) Method and Apparatus for Real Time Identification and Recording of Artifacts
CN108306879B (zh) 基于Web会话流的分布式实时异常定位方法
CN104394211A (zh) 一种基于Hadoop用户行为分析系统设计与实现方法
CN104488231A (zh) 利用按照需求的装置的实时网络监视和订户标识
US10250521B2 (en) Data stream identifying method and device
Park et al. Fine‐grained traffic classification based on functional separation
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN102724317A (zh) 一种网络数据流量分类方法和装置
US20230092159A1 (en) Label guided unsupervised learning based network-level application signature generation
CN106789242A (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析引擎
CN106100886A (zh) 一种一体化网络用户行为分析方法
Xie et al. Accurate identification of internet video traffic using byte code distribution features
Li et al. Activetracker: Uncovering the trajectory of app activities over encrypted internet traffic streams
CN108989881A (zh) 一种主播状态确定方法及装置
CN102984242B (zh) 一种应用协议的自动识别方法和装置
CN110602059B (zh) 一种精准复原tls协议加密传输数据明文长度指纹的方法
CN111310796B (zh) 一种面向加密网络流的Web用户点击识别方法
CN110830416A (zh) 网络入侵检测方法和装置
CN108418871A (zh) 一种云存储性能优化方法和系统
CN106209421A (zh) 一种一体化网络用户行为分析方法
WO2023082605A1 (zh) Http报文的提取方法、装置、介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20161109

WW01 Invention patent application withdrawn after publication