CN104469805B - 基于用户行为分析的即时通讯业务流量生成方法 - Google Patents

基于用户行为分析的即时通讯业务流量生成方法 Download PDF

Info

Publication number
CN104469805B
CN104469805B CN201310419410.5A CN201310419410A CN104469805B CN 104469805 B CN104469805 B CN 104469805B CN 201310419410 A CN201310419410 A CN 201310419410A CN 104469805 B CN104469805 B CN 104469805B
Authority
CN
China
Prior art keywords
user
data
chat
data packet
instant messaging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310419410.5A
Other languages
English (en)
Other versions
CN104469805A (zh
Inventor
王平
宋春林
陶玥琛
唐沛文
贾立萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201310419410.5A priority Critical patent/CN104469805B/zh
Publication of CN104469805A publication Critical patent/CN104469805A/zh
Application granted granted Critical
Publication of CN104469805B publication Critical patent/CN104469805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于用户行为分析的即时通讯业务的流量生成方法,主要应用于宽带无线通信的流量测试分析,本方法考虑了各用户的消息时间间隔、消息数据大小和在线时长,用于刻画用户的即时聊天行为频率,并以此聚类建立不同的聊天行为模型,同时引入系统数据作为背景流量,因此能够准确地反映最真实的用户在即时通讯时所产生的流量状况。

Description

基于用户行为分析的即时通讯业务流量生成方法
技术领域
本发明涉及宽带无线通信的流量产生技术,尤其是涉及一种基于用户行为分析的即时通讯业务流量生成方法。
背景技术
随着宽带无线接入技术和移动终端技术的迅速发展,移动互联网的规模逐渐扩大。移动互联网用户数量的攀升,网络应用的多样化,使得网络流量也发生了实质性的变化。为了研究带宽拥塞、网络运行维护、网络攻击、QoE等问题,首先需要了解的是网络流量的特性。在这种情况下,寻找有效方法进行网络模拟和实验变得至关重要,由此发展出了流量生成技术。
目前,流量生成的主要方法是模型流量生成,在了解网络流量特性后对流量进行数学建模,按照数学模型发送数据包,从而产生符合网络特性的网络流量。近年来研究者通过对大量网络流量的测量和分析,网络流量模型已经从泊松分布变成长相关、自相似。但是这些特点是从网络流量的整体概率分布分析得到的,产生的流量与真实流量在整体上较为接近,但是不能反映单一用户的行为特点,在许多情况下显得不足。
在业务模型方面,根据用户使用业务的规律性和业务本身的属性,对现网采集的真实业务数据进行统计分析,可刻画业务流量产生过程的业务模型。目前,针对HTTP业务有ON/OFF模型,研究者在此基础上进行了诸多改进,此方面的技术较为成熟。但是,不同类型业务具有各自的流量特点,模型不具备极强的通用性,以即时通讯业务为研究对象的流量建模方法较少,尤其是基于用户行为刻画的流量产生方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于用户行为分析的即时通讯业务流量生成方法,该方法针对移动互联网中的即时通讯业务的即时聊天行为,根据用户聊天的频度对用户群进行聚类建模,由此产生的整体流量能够与真实流量近似,且同时能够体现单一用户的行为特点。
本发明的目的可以通过以下技术方案来实现:
一种基于用户行为分析的即时通讯业务流量生成方法,包括以下步骤:
1)从基站采集用户的数据包;
2)根据用户进行即时通信所使用的软件协议,识别用户的聊天动作和系统动作所对应的数据包;
3)将步骤2)中得到的系统动作数据包按照动作属性分类,分别统计不同系统动作的相邻数据包发送间隔和数据包大小,选择峰值或者次峰值作为系统动作数据包重建的依据值;
4)将步骤2)中得到的聊天动作数据包按照动作属性分类,分别统计不同聊天动作的数据包大小和频次,并选择峰值作为聊天动作数据包重建的依据值;
5)统计各个用户登录和注销的时间差,获取用户进行即时通讯的在线时长,并根据在线时长对用户进行分类;
6)根据用户在单位时间内发送信息的频次,对用户的聊天等级进行划分,并获取每一类用户在其在线时间内的聊天等级分布;
7)根据步骤6)中每一类用户在其在线时间内的聊天等级分布,结合步骤3)和步骤4)获取的系统动作数据包和聊天动作数据包中间的依据值,组合得到每一类用户的流量组合模型,并根据流量组合模型及用户类型产生数据包流量。
步骤1)中通过抓包软件从基站采集用户数据,得到pcap格式的文件,并从中获取包括数据包序号、时间、源IP地址、目的IP地址、数据长度、数据内容在内的信息。
所述的聊天动作包括但不限于登录、注销、发送消息、接收消息,所述的系统动作包括但不限于心跳数据收发、好友定时刷新。
步骤3)中若系统动作的相邻数据包发送间隔和数据包大小无明显峰值时,则计算其加权平均值作为系统动作数据包重建的依据值。
与现有技术相比,本发明能够逼真地在时间上和流量上模仿用户即时通讯时产生的数据包,搭建的模型完整刻画用户的使用过程,且在实现时可以多线程的方式模拟多用户的使用情况,从而产生大规模网络流量。
附图说明
图1为本发明的整体操作流程图;
图2为本发明实施例的数据包交互方式;
图3为本发明的具体实施流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示本发明一种基于用户行为分析的即时通讯业务流量生成方法的整体流程图,本实施例以手机QQ这一即时通讯软件为例,对该方法进行说明,其详细流程如图3所示,包括以下步骤:
步骤1,从基站采集用户使用手机QQ这一即时通讯业务的数据包,得到pcap格式的文件,并从中获取数据包序号、时间、源IP地址、目的IP地址、数据长度、数据内容在内的信息。具体操作时,将pcap文件内容转换为表格形式以便于读取分析,需要提取的内容如表1所示。
表1
数据包序号 时间 源IP地址 目的IP地址 数据长度 数据内容
…… …… …… …… …… ……
步骤2,根据手机QQ的软件协议特征,包括动作含义的标志、数据包交互的方式等,识别用户的聊天动作和系统动作所对应的数据包。在数据包的数据内容部分,特定字节位置标记动作含义。手机QQ是基于TCP的数据包传输,客户端Client发送带有动作标志的数据请求,服务器Server先回复ACK,后发送带有相同动作标志的数据响应,客户端Client回复ACK,如此完成一次信息交互,如图2所示。
步骤3,根据动作含义的标志,将用户产生的数据包分为聊天动作(如登录、注销、发送消息、接收消息等)和系统动作(如心跳、刷新好友等)等两部分。聊天动作的数据包是用户主动产生的,系统动作的数据包是用户被动产生的。鉴于其产生原因不同,其流量模型的产生方式也是不同的。
步骤4,将各用户被动产生的系统动作数据包按照动作属性分类,分别统计不同系统动作的相邻数据包发送间隔和数据包大小。
步骤5,步骤4的统计结果,选择峰值或者次峰值作为系统动作数据包重建的依据值。若系统动作的相邻数据包发送间隔和数据包大小无明显峰值时,则计算其加权平均值作为系统动作数据包重建的依据值。
步骤6,对各用户登录和注销动作的数据包大小进行频次统计,同时计算各用户的在线时长ton_line=TLogout-TLogin,其中,TLogout为登录时间,TLogin为注销时间。
步骤7,根据步骤6的统计结果,选择各动作的数据包的频次峰值作为相应动作重建的依据。鉴于在线时长是用户使用习惯的重要表现之一,故根据在线时长将用户聚类,并得出各类时长用户在样本中的分布比例ηj,其中j=1,2,...M,ηj≤1。
步骤8,根据步骤7的用户分类结合系统动作、登录和注销动作等的数据包间隔ti和大小li的重建数据,组合出各类手机QQ用户的在线静默数据包流量模型。其中i=1,2,...,n,为相关动作编号。其全部参数可记作矩阵Θ,
步骤9,将各用户主动产生的聊天动作(如发送消息、接收消息)进行数据包发送间隔和数据包大小的频次统计。
步骤10根据步骤9的统计结果,按照用户单位时间发送消息的数量,对用户聊天的频度进行分级,如潜水用户、轻度用户、重度用户等。对样本中分类用户每单位时间的聊天水平进行评级。
步骤11根据步骤9的统计结果,选择发送消息、接收消息动作的数据包大小作重建数据,在数据包发送间隔方面结合用户聊天频度的分级标准,搭建潜水用户、轻度用户和重度用户的单位时间聊天流量模型。
步骤12,结合步骤8得到的不同用户的在线静默数据包流量模型,以及具有不同聊天水平评级用户的单位时间聊天流量模型,得到样本用户群各类用户的数据包流量模型,并由该数据包流量模型生成即时通讯业务流量。

Claims (4)

1.一种基于用户行为分析的即时通讯业务流量生成方法,其特征在于,包括以下步骤:
1)从基站采集用户的数据包;
2)根据用户进行即时通信所使用的软件协议,识别用户的聊天动作和系统动作所对应的数据包;
3)将步骤2)中得到的系统动作数据包按照动作属性分类,分别统计不同系统动作的相邻数据包发送间隔和数据包大小,选择峰值或者次峰值作为系统动作数据包重建的依据值;
4)将步骤2)中得到的聊天动作数据包按照动作属性分类,分别统计不同聊天动作的数据包大小和频次,并选择峰值作为聊天动作数据包重建的依据值;
5)统计各个用户登录和注销的时间差,获取用户进行即时通讯的在线时长,并根据在线时长对用户进行分类;
6)根据用户在单位时间内发送信息的频次,对用户的聊天等级进行划分,并获取每一类用户在其在线时间内的聊天等级分布;
7)根据步骤6)中每一类用户在其在线时间内的聊天等级分布,结合步骤3)和步骤4)获取的系统动作数据包和聊天动作数据包中间的依据值,组合得到每一类用户的流量组合模型,并根据流量组合模型及用户类型产生数据包流量。
2.根据权利要求1所述的一种基于用户行为分析的即时通讯业务流量生成方法,其特征在于,步骤1)中通过抓包软件从基站采集用户数据,得到pcap格式的文件,并从中获取包括数据包序号、时间、源IP地址、目的IP地址、数据长度、数据内容在内的信息。
3.根据权利要求1所述的一种基于用户行为分析的即时通讯业务流量生成方法,其特征在于,所述的聊天动作包括但不限于登录、注销、发送消息、接收消息,所述的系统动作包括但不限于心跳数据收发、好友定时刷新。
4.根据权利要求1所述的一种基于用户行为分析的即时通讯业务流量生成方法,其特征在于,步骤3)中若系统动作的相邻数据包发送间隔和数据包大小无明显峰值时,则计算其加权平均值作为系统动作数据包重建的依据值。
CN201310419410.5A 2013-09-13 2013-09-13 基于用户行为分析的即时通讯业务流量生成方法 Active CN104469805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310419410.5A CN104469805B (zh) 2013-09-13 2013-09-13 基于用户行为分析的即时通讯业务流量生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310419410.5A CN104469805B (zh) 2013-09-13 2013-09-13 基于用户行为分析的即时通讯业务流量生成方法

Publications (2)

Publication Number Publication Date
CN104469805A CN104469805A (zh) 2015-03-25
CN104469805B true CN104469805B (zh) 2018-04-27

Family

ID=52915013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310419410.5A Active CN104469805B (zh) 2013-09-13 2013-09-13 基于用户行为分析的即时通讯业务流量生成方法

Country Status (1)

Country Link
CN (1) CN104469805B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296406A (zh) * 2015-05-13 2017-01-04 阿里巴巴集团控股有限公司 交互数据的处理方法及装置
CN107465519B (zh) * 2017-08-18 2020-08-18 青岛数与信息科技有限公司 一种基于即时通讯应用的数据管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
US8331618B1 (en) * 2008-12-16 2012-12-11 Symantec Corporation Method and apparatus for monitoring instant messaging with visual identification
CN103001805A (zh) * 2012-12-17 2013-03-27 重庆邮电大学 基于用户行为分析的web用户流量产生方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331618B1 (en) * 2008-12-16 2012-12-11 Symantec Corporation Method and apparatus for monitoring instant messaging with visual identification
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
CN103001805A (zh) * 2012-12-17 2013-03-27 重庆邮电大学 基于用户行为分析的web用户流量产生方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
即时通讯流量识别还原技术研究;杨阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090115(第1期);全文 *

Also Published As

Publication number Publication date
CN104469805A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN105447147B (zh) 一种数据处理方法及装置
CN103595576B (zh) 一种基于内容提供商标识的互联口icp流量统计系统及方法
US20190222499A1 (en) Network Data Flow Classification Method and System
CN109063010B (zh) 一种基于PageRank的意见领袖挖掘方法
US8775605B2 (en) Method and apparatus to identify outliers in social networks
CN103795612B (zh) 即时通讯中的垃圾和违法信息检测方法
CN104378264B (zh) 一种基于sFlow的虚拟机进程流量监控方法
CN101789887A (zh) 网络用户分类方法、装置和网络业务监控系统
CN106530015A (zh) 信息投放控制方法及装置
CN104077412B (zh) 一种基于多Markov链的微博用户兴趣预测方法
CN107087160A (zh) 一种基于BP‑Adaboost神经网络的用户体验质量的预测方法
CN113938318B (zh) 确定直播间刷量的方法及装置
CN109873797A (zh) 基于统计分析的会话视频业务QoE-QoS参数映射方法
CN104767776A (zh) 一种实时调整网络路由方法、装置及系统
CN104299179B (zh) 一种针对教师的调课系统及其调课方法
CN103188348A (zh) 一种基于文件分享的联系人管理方法
CN109194533A (zh) 数据传输延迟的测评方法及装置
CN104469805B (zh) 基于用户行为分析的即时通讯业务流量生成方法
CN109121093A (zh) 一种基于被动式WiFi与深度聚类的用户画像构建方法及系统
CN106304085B (zh) 信息处理方法及装置
CN101986608B (zh) 一种异构覆盖网络负载均衡程度的评价方法
CN105992280B (zh) 一种数据处理方法及装置
CN106027303B (zh) 一种征信特征获取方法及其设备
CN107612709A (zh) 宽带用户分类方法、装置及计算机可读存储介质
CN103684971A (zh) 一种邮件处理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant