CN106789346A - 一种基于用户连接图的深度行为关联方法 - Google Patents

一种基于用户连接图的深度行为关联方法 Download PDF

Info

Publication number
CN106789346A
CN106789346A CN201710046223.5A CN201710046223A CN106789346A CN 106789346 A CN106789346 A CN 106789346A CN 201710046223 A CN201710046223 A CN 201710046223A CN 106789346 A CN106789346 A CN 106789346A
Authority
CN
China
Prior art keywords
user
behavior
node
corporations
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710046223.5A
Other languages
English (en)
Inventor
张震
卜佑军
马海龙
陈鸿昶
周俊
于婧
韩伟涛
陈祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201710046223.5A priority Critical patent/CN106789346A/zh
Publication of CN106789346A publication Critical patent/CN106789346A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic
    • H04L47/808User-type aware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明属于计算机网络的用户行为分析技术领域,具体的涉及一种基于用户连接图的深度行为关联方法,该方法包括:根据网络中报文的IP地址、端口号和协议号,构造用户连接图;根据用户连接图,基于用户的相邻通信关系,构造行为关联矩阵;根据行为关联矩阵,利用K‑means聚簇方法,划分得到不同的用户社团;根据用户社团,基于熟知端口号和常用端口号,得到用户社团内任意用户结点行为标识;根据用户社团内任意用户结点的行为标识,采用多数投票方法,得到用户社团整体行为标识。与现有技术相比,本发明不依赖于负载信息和基于流的统计信息,克服了“模型失配”问题,提高了用户行为深度关联分析的准确性。

Description

一种基于用户连接图的深度行为关联方法
技术领域
本发明属于计算机网络的用户行为分析技术领域,具体的涉及一种基于用户连接图的深度行为关联方法。
背景技术
互联网作为人们交互的综合性服务平台,已经集成了语音、视频、图像、文本等异构多源数据。网民规模也迅速膨胀,并广泛参与互联网交易、互联网医疗、互联网教育等,业务行为呈现差异化、规模化的发现趋势。
一般采用基于机器学习方法进行用户行为分析,例如:朴素贝叶斯、支持向量机和C4.5等。基于机器学习的方法是基于数据流的样本集和统计信息(如流字节数、报文数、报文平均间隔等)构建训练模型,对用户行为进行分类识别。但是大量的流量测量报告表明:网络的在线用户数量与用户的作息时间之间具有明显的相关性,由此会引发网络流量的时移特性。随着网络时空环境和业务分布的变化,传统基于机器学习的方法会产生“模型失配”问题:时刻t得到的学习模型Mt,与前一时刻t-1得到的学习模型Mt-1不一致的现象。导致这种现象的原因是网络流量的突发性、网络时空环境发生变化、网络应用分布发生变化等。
为了独立于流量统计特性,不再关注应用层负载、流量特征的提取和统计,而应从用户相互连接和关联通信的角度进行研究,为互联网用户行为分析开辟了新的研究思路。
发明内容
本发明针对现有技术在面对网络流量的突发性、网络时空环境发生变化、网络应用分布发生变化的情况下,采用基于机器学习的分析方法会产生“模型失配”的问题,提出一种基于用户连接图的深度行为关联方法。
本发明的技术方案是:一种基于用户连接图的深度行为关联方法,所述方法包括:
根据网络中报文的IP地址、端口号和协议号,构造用户连接图;
根据用户连接图,基于用户的相邻通信关系,构造行为关联矩阵;
根据行为关联矩阵,利用K-means聚簇方法,划分用户社团;
根据用户社团,基于熟知端口号和常用端口号,计算用户社团内任意用户结点行为标识;
根据用户社团内任意用户结点行为标识,采用多数投票表决方法,计算整个用户社团的行为标识。
所述的基于用户连接图的深度行为关联方法,所述构造用户连接图的具体方法为:
根据{IP地址、端口号、协议号}构造用户连接图的点;
根据报文间的传递关系,从行为学角度确定建立边的基本原则;
根据{源IP地址,源端口、目的IP地址、目的端口、协议号}五元组信息,构造用户连接图中任意两点的边。
所述的基于用户连接图的深度行为关联方法,所述构造行为关联矩阵的具体方法为:
根据用户是否直接通信,构造用户连接图中相邻用户集合;
根据相邻用户间具有共同的业务应用,计算相邻用户的行为距离;
根据非相邻用户间具有相似的业务应用,计算非相邻用户的行为距离。
所述的基于用户连接图的深度行为关联方法,所述划分用户社团的方法为:
输入行为关联矩阵,初始化选择K个聚簇中心,K为自然数;
利用K-means聚类方法,找到最佳的K个聚簇中心;
任意用户结点归并到相应的聚簇,形成K个用户社团。
所述的基于用户连接图的深度行为关联方法,所述的用户结点行为标识包括:
按照用户结点度数,寻求用户社团中度数最大的用户结点,用户结点度是指与该用户结点相关联的边的条数;
根据用户结点的熟知端口号和协议号,确定用户结点行为标识,熟知端口号是指使用网络通讯时常常会用到的端口;
根据用户结点的常用端口号和协议号,确定用户结点行为标识,常用端口号是运营商提供公共服务注册使用的端口。
所述的基于用户连接图的深度行为关联方法,所述计算用户社团行为标识的方法为:根据用户社团内任意用户结点行为标识,将数量比例最大的用户行为标识确定为该用户社团的行为类别;若没有满足上述条件的行为标识,则重新进行用户社团划分和确定用户结点行为标识。本发明的有益效果是:与现有技术相比,本发明不依赖于负载信息和基于流的统计信息,克服了“模型失配”现象,提高了用户行为深度关联分析的准确性;无需提取基于流的统计信息和基于样本集的学习训练,降低了用户行为深度关联分析的时间复杂度;从用户连接和关联通信的角度出发,构建和划分用户连接图,最终实现“物以类聚、人以群分”的目标;本发明还可用于分析用户行为分析、用户行为偏好分析、用户群活动规律分析,对于商业增值业务挖掘、业务趋势预测以及网络安全管控具有重要意义。
附图说明
图1为本发明基于用户连接图的深度行为关联步骤流程示意图;
图2为构建用户连接图步骤流程示意图;
图3为计算行为关联矩阵步骤流程示意图;
图4为用户社团划分步骤流程示意图;
图5为计算用户结点行为标识步骤流程示意图;
图6为计算用户社团行为标识步骤流程示意图;
图7为部分熟知端口列表示意图;
图8为行为距离等于3的示意图;
图9为行为距离等于5的示意图。
具体实施方式
实施例1:结合图1-图9,用户结点度数:用户结点度是指与该用户结点相关联的边的条数。
K-means聚类:K-means聚类算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一,其核心思想是:以K个点为中心进行聚类,对最靠近中心点的对象归类;通过迭代的方法,逐次更新各聚类中心点,直到找到最好的聚类效果。
熟知端口号:使用网络通讯时常常会用到的端口,每个端口对应一种网络服务,范围在0-1023,参考图7。
常用端口号:是运营商提供公共服务注册使用的端口,如游戏类服务“魔兽世界”对应端口3424、数据库类服务Mysql对应端口3306等。
一种基于用户连接图的深度行为关联方法,如图1所示,首先对该方法的如下流程进行简单介绍:
步骤101、根据网络中报文的IP地址、端口号和协议号等信息,构造用户连接图;
步骤102、根据用户连接图,基于用户的相邻通信关系,构造行为关联矩阵;
步骤103、根据行为关联矩阵,利用K-means聚簇方法,划分得到用户社团;
步骤104、根据用户社团,基于熟知端口号和常用端口号,计算用户社团内任意用户结点行为标识;
步骤105、根据用户社团内任意用户结点行为标识,采用多数投票方法,得到整个用户社团的行为标识。
进一步的,建立用户连接图,具体包括,参照图2,步骤201、依据{IP地址、端口号、协议号}构造用户连接图的点,如用户A对应192.168.1.1、6890、6,用户B对应为192.168.1.2、4611、6,用户C对应为10.10.1.1、80、6。
步骤202、根据报文间的传递关系,确定建立边的基本原则;连接图的边表征了用户之间的交互,从行为学的角度,只要用户A向用户B发送了报文,则A必然存在向B索取某种信息或资源的意图,可以根据以下原则,对用户A和B构建一条边:(1)对于UDP流,若A向B传送了第一个报文;(2)对于TCP流,若A向B发送了第一个SYN报文;(3)若A、B之间通信的字节总数或者报文总数大于某一阈值;(4)若A和B三次握手成功,TCP连接建立;(5)根据A和B之间的传输层协议(TCP、UDP、ICMP等)。
步骤203、依据{源IP地址,源端口、目的IP地址、目的端口、协议号}五元组信息,建立用户连接图中任意两点的边。若A和B分别与C进行了TCP三次握手,则将A和C(五元组信息对应为{192.168.1.1、6890、10.10.1.1、80、6}),B和C(五元组信息对应为{192.168.1.2、4611、10.10.1.1、80、6})分别建立一条边。
步骤204、根据用户连接图的点和边,进行用户行为的直观分析;若大量用户和C建立边,则说明C可能是服务提供者,也可能是DDoS攻击的目标主机。
进一步的,计算行为关联矩阵,具体发过程包括,参照图3:步骤301、根据用户是否直接通信,构造用户连接图相邻用户集合。若用户vi与用户vj直接相连,则称vi和vj为相邻用户;若vi与用户v1、v2、v3相连,则用户vi的相邻用户集合为Ui={v1,v2,v3}。
步骤302、根据相邻用户间具有共同的业务应用,计算相邻用户的行为距离。若用户vi和vj为直连通信用户,则定义vi和vj的用户行为距离为0(即两个用户具有共同的业务应用)。
步骤303、根据非相邻用户间具有相似的业务应用,计算非相邻用户的行为距离。若vi和vj不相邻,且vi和vj对应的相邻用户集合为Ui和Uj,则vi和vj的用户行为距离等于两个相邻集合相同用户的个数|Ui∩Uj|。例如:UA={C,D,E,F},UB={C,D,E,G},则用户A和用户B的行为距离为3。
进一步的,结合图8,若用户A和用户C、D、E直接相连(即相邻用户),并且用户B也和用户C、D、E直接相连,则用户A和B都与C、D、E等3个用户相邻,则A和B的行为距离等于3。
进一步的,结合图9,若用户A和用户C、D、E、F、G直接相连(即相邻用户),并且用户B也和用户C、D、E、F、G直接相连,则用户A和B都与C、D、E、F、G等5个用户相邻,则A和B的行为距离等于5。
步骤304、构造行为关联矩阵,矩阵中各个元素为步骤302和步骤303计算得到的用户行为距离。
进一步的,划分用户社团,具体包括,结合图4,步骤401、输入行为关联矩阵,初始化选择K个聚簇中心,K为自然数;步骤402、利用K-means聚类方法,直到找到最佳的K个聚簇中心;步骤403、任意用户结点归并到相应的聚簇,形成K个用户社团。
进一步的,计算用户结点行为标识,具体方法包括,结合图5,步骤501、按照用户结点度数进行行为标注。首先,寻求用户社团中度数最大的用户结点:一方面,在用户连接图中,用户结点度数越大表明其相邻用户越多;另一方面,若连接度数最大的用户结点被标注,则与其直接相连的用户也相应地得到了识别,从而能有效降低计算复杂度;步骤502、根据用户结点的熟知端口号和协议号,确定用户结点行为标识;步骤503、根据用户结点的常用端口号和协议号,确定用户结点行为标识。
进一步的:计算用户社团的行为标识,具体方法包括,结合图6,步骤601、针对任意用户社团,将数量比例最大的用户结点行为标识,确定为该用户社团的行为类别;步骤602、若没有满足上述条件的行为标识,则重新进行用户社团划分和确定用户结点行为标识。

Claims (6)

1.一种基于用户连接图的深度行为关联方法,其特征在于,所述方法包括:
根据网络中报文的IP地址、端口号和协议号,构造用户连接图;
根据用户连接图,基于用户的相邻通信关系,构造行为关联矩阵;
根据行为关联矩阵,利用K-means聚簇方法,划分用户社团;
根据用户社团,基于熟知端口号和常用端口号,计算用户社团内任意用户结点行为标识;
根据用户社团内任意用户结点行为标识,采用多数投票表决方法,计算整个用户社团的行为标识。
2.根据权利要求1所述的基于用户连接图的深度行为关联方法,其特征在于:所述构造用户连接图的具体方法为:
根据{IP地址、端口号、协议号}构造用户连接图的点;
根据报文间的传递关系,从行为学角度确定建立边的基本原则;
根据{源IP地址,源端口、目的IP地址、目的端口、协议号}五元组信息,构造用户连接图中任意两点的边。
3.根据权利要求1所述的基于用户连接图的深度行为关联方法,其特征在于:所述构造行为关联矩阵的具体方法为:
根据用户是否直接通信,构造用户连接图中相邻用户集合;
根据相邻用户间具有共同的业务应用,计算相邻用户的行为距离;
根据非相邻用户间具有相似的业务应用,计算非相邻用户的行为距离。
4.根据权利要求1所述的基于用户连接图的深度行为关联方法,其特征在于:所述划分用户社团的方法为:
输入行为关联矩阵,初始化选择K个聚簇中心,K为自然数;
利用K-means聚类方法,找到最佳的K个聚簇中心;
任意用户结点归并到相应的聚簇,形成K个用户社团。
5.根据权利要求1所述的基于用户连接图的深度行为关联方法,其特征在于:所述的用户结点行为标识包括:
按照用户结点度数,寻求用户社团中度数最大的用户结点,用户结点度是指与该用户结点相关联的边的条数;
根据用户结点的熟知端口号和协议号,确定用户结点行为标识,熟知端口号是指使用网络通讯时常常会用到的端口;
根据用户结点的常用端口号和协议号,确定用户结点行为标识,常用端口号是运营商提供公共服务注册使用的端口。
6.根据权利要求1所述的基于用户连接图的深度行为关联方法,其特征在于:所述计算用户社团行为标识的方法为:根据用户社团内任意用户结点行为标识,将数量比例最大的用户行为标识确定为该用户社团的行为类别;若没有满足上述条件的行为标识,则重新进行用户社团划分和确定用户结点行为标识。
CN201710046223.5A 2017-01-22 2017-01-22 一种基于用户连接图的深度行为关联方法 Pending CN106789346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710046223.5A CN106789346A (zh) 2017-01-22 2017-01-22 一种基于用户连接图的深度行为关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710046223.5A CN106789346A (zh) 2017-01-22 2017-01-22 一种基于用户连接图的深度行为关联方法

Publications (1)

Publication Number Publication Date
CN106789346A true CN106789346A (zh) 2017-05-31

Family

ID=58943719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710046223.5A Pending CN106789346A (zh) 2017-01-22 2017-01-22 一种基于用户连接图的深度行为关联方法

Country Status (1)

Country Link
CN (1) CN106789346A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672777A (zh) * 2021-08-30 2021-11-19 上海飞旗网络技术股份有限公司 一种基于流量关联分析的用户意图探索方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935570A (zh) * 2015-04-22 2015-09-23 电子科技大学 基于网络流连接图的网络流连接行为特征分析方法
CN105812280A (zh) * 2016-05-05 2016-07-27 四川九洲电器集团有限责任公司 一种分类方法及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935570A (zh) * 2015-04-22 2015-09-23 电子科技大学 基于网络流连接图的网络流连接行为特征分析方法
CN105812280A (zh) * 2016-05-05 2016-07-27 四川九洲电器集团有限责任公司 一种分类方法及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张震: "基于流量测量的高速IP业务感知技术研究", 《中国博士学位论文全文数据库-信息科技辑》 *
张震等: "互联网中基于用户连接图的流量分类机制", 《电子与信息学报》 *
张震等: "基于复杂网络挖掘的用户行为感知机制", 《中国科学:信息科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672777A (zh) * 2021-08-30 2021-11-19 上海飞旗网络技术股份有限公司 一种基于流量关联分析的用户意图探索方法及系统
CN113672777B (zh) * 2021-08-30 2023-09-08 上海飞旗网络技术股份有限公司 一种基于流量关联分析的用户意图探索方法及系统

Similar Documents

Publication Publication Date Title
Ertam et al. A new approach for internet traffic classification: GA-WK-ELM
Erman et al. Offline/realtime traffic classification using semi-supervised learning
CN107181724B (zh) 一种协同流的识别方法、系统以及使用该方法的服务器
Qi et al. Model aggregation techniques in federated learning: A comprehensive survey
Kolhe et al. Smart city implementation based on Internet of Things integrated with optimization technology
CN107431663A (zh) 网络流量分类
CN105874474A (zh) 用于面部表示的系统和方法
CN104935570B (zh) 基于网络流连接图的网络流连接行为特征分析方法
CN108429718A (zh) 账号识别方法及装置
Xu et al. Interaction between epidemic spread and collective behavior in scale-free networks with community structure
WO2022247955A1 (zh) 非正常账号识别方法、装置、设备和存储介质
CN112101577B (zh) 基于XGBoost的跨样本联邦学习、测试方法、系统、设备和介质
CN109299742A (zh) 自动发现未知网络流的方法、装置、设备及存储介质
CN115034836B (zh) 一种模型训练方法及相关装置
CN103281211A (zh) 大规模网络节点分组管理系统及管理方法
Hexmoor Computational network science: an algorithmic approach
CN113360514A (zh) 联合更新模型的方法、装置及系统
WO2016172610A1 (en) System and method for matching dynamically validated network data
Song et al. EOS. IO blockchain data analysis
CN109783805A (zh) 一种网络社区用户识别方法及装置
Liu et al. P2P traffic identification and optimization using fuzzy c-means clustering
CN108737491A (zh) 信息推送方法和装置以及存储介质、电子装置
CN106789346A (zh) 一种基于用户连接图的深度行为关联方法
Wang et al. Towards reliable self-clustering mobile ad hoc networks
CN113872756A (zh) 基于联邦学习的量子保密通信服务画像实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531