CN113904961A - 一种用户行为识别方法、系统、设备及存储介质 - Google Patents
一种用户行为识别方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN113904961A CN113904961A CN202111056222.1A CN202111056222A CN113904961A CN 113904961 A CN113904961 A CN 113904961A CN 202111056222 A CN202111056222 A CN 202111056222A CN 113904961 A CN113904961 A CN 113904961A
- Authority
- CN
- China
- Prior art keywords
- hypergraph
- data stream
- time window
- sequence
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 230000006399 behavior Effects 0.000 claims description 107
- 238000012549 training Methods 0.000 claims description 68
- 230000015654 memory Effects 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000926 separation method Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005206 flow analysis Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006317 isomerization reaction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及网络用户行为识别技术领域,尤其涉及一种用户行为识别方法、系统、设备及存储介质,包括:对所述IP数据流进行预处理,得到相应的编码向量和属性特征;根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图;基于所述多图层超图,根据连续时间窗口中的IP数据流,得到与时间窗口相应的超图序列;对所述超图序列进行实时行为标注,得到用户行为标注序列。本发明提供的方法,不仅能够使网络管理员在无需解密以及获取高层信息的情况下,通过网络数据流即可识别用户行为,同时描述了用户持续的访问行为规律,有效地提升了互联网的安全性,且适用范围广。
Description
技术领域
本发明涉及网络用户行为识别技术领域,尤其涉及一种面向网络链路的用户行为识别方法、系统、设备及存储介质。
背景技术
网络链路是数据通信中的关键环节,是连接源和目的的管道,网络链路承担数据业务的传输任务,为保障网络链路的正常和稳定,许多不同的技术被应用于网络链路管理,包括:负载均衡、流量工程、安全检测等。
网络链路位于TCP/IP协议栈的中下层,上层信息对其不可见,已有的链路管理技术也主要从流量负载的角度实现链路管理,随着网络规模的急剧增长及异构化、网络服务的快速发展与渗透,面向“流量”的传统网络链路管理方式已经不能满足新的需求,基于用户行为规律、偏好、习惯的定制化网络链路管理成为新的发展方向,但是,由于网络链路在协议栈中所处的位置,使其无法直接获取位于高层的用户行为信息,而且日益普及的数据流加密技术也进一步增加了用户行为解析的难度,因此,突破面向网络链路的用户行为识别是目前亟待解决的重要问题之一。
发明内容
本发明的目的是提供一种用户行为识别方法、系统、设备及存储介质,使得网络管理员无需获取高层信息,仅通过网络数据流即可识别用户行为。
为解决以上技术问题,本发明提供了一种用户行为识别方法、系统、设备及存储介质。
第一方面,本发明提供了一种用户行为识别方法,所述方法包括以下步骤:
采集网络链路上的实时流量数据,得到实时IP数据流;
对所述IP数据流进行预处理,得到相应的编码向量和属性特征;
根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图;
基于所述多图层超图,根据连续时间窗口中的IP数据流,得到与时间窗口相应的超图序列;
对所述超图序列进行实时行为标注,得到用户行为标注序列,以确定用户行为类型。
在进一步的实施方案中,所述对所述IP数据流进行预处理,得到相应的编码向量和属性特征的步骤包括:
在训练阶段,采集网络链路上用于训练的流量数据,得到IP数据流训练样本,并对所述IP数据流训练样本与预设的用户行为标注进行拼接、编码,得到编码表;
根据训练得到的编码表,获取所述IP数据流中每一个IP地址的编码向量;
对得到的所有所述编码向量以用户为单元进行流量分离,得到用户数据流;
利用预设时间窗口对所述用户数据流进行窗口分割,得到窗口流片段;
对每个所述窗口流片段进行特征提取,得到属性特征。
在进一步的实施方案中,根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图的步骤包括:
在网络链路上采集用于模型训练的流量数据,得到IP数据流训练样本;
根据所述IP数据流训练样本以及预设的用户行为标注训练神经网络模型;
根据训练好的神经网络模型得到相应的超图表达模型;
将实时IP数据流中每一个IP地址的编码向量输入所述超图表达模型,得到预设时间窗口中的IP数据流在超图中的坐标位置。
在进一步的实施方案中,所述根据所述IP数据流训练样本以及预设的用户行为标注训练神经网络模型的步骤包括:
在训练阶段,选取所述IP数据流训练样本在给定时间窗口中任一IP地址,并将其作为待训练的神经网络模型的输入;
在与所述IP地址处于相同的时间窗口中,将部分剩余的互联网侧的IP地址编码向量、以及此时间窗口预设的用户行为标注对应的编码向量作为待训练的神经网络模型的输出,以进行有监督学习;
保留待训练神经网络模型输出中的用户行为标注对应的编码向量,随机更换此时间窗口中与待训练神经网络模型输入端不同的互联网侧的IP地址编码向量,重复这一步并遍历所有可能组合;
对输入端的IP地址,遍历此时间窗口中所有位于互联网侧的IP地址;
移动至下一个时间窗口,重复上述步骤,直至完成模型训练。
在进一步的实施方案中,所述基于所述多图层超图,根据时间窗口中连续的IP数据流,得到与时间窗口相应的超图序列的步骤包括:
根据所述超图表达模型将实时IP数据流中每一个观测到的IP地址映射到超图中的像素点;
对于每一个IP地址,利用其在每一个预设时间窗口中的属性特征的维度,建立所述超图空间的图层;
将任一IP地址在每一个预设时间窗口中的属性特征映射为超图空间中对应像素点各个图层的灰度,得到每一个时间窗口的IP数据流的多图层超图表达,将连续时间窗口所对应的若干多图层超图串接,得到超图序列。
在进一步的实施方案中,所述对所述超图序列进行实时行为标注,得到用户行为标注序列的步骤包括:
根据预先训练得到的超图序列标注模型,获取超图序列标注模型参数;
基于所述超图序列标注模型参数,对所述超图序列进行实时行为标注,得到用户在每一个时间窗口的行为标注。
在进一步的实施方案中,所述超图序列标注模型为长短期记忆网络模型;
所述长短期记忆网络模型包括若干个串联的长短期记忆网络单元,每个长短期记忆网络单元均包括三个输入端、两个输出端以及与所述输入端连接的编码器。
第二方面,本发明提供了一种用户行为识别系统,所述系统包括:
数据采集模块,用于采集网络链路上的实时流量数据,得到实时IP数据流;
数据预处理模块,用于对所述IP数据流进行预处理,得到相应的编码向量和属性特征;
流量分析模块,用于根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图,并基于所述多图层超图,根据连续时间窗口中的IP数据流,得到与时间窗口相应的超图序列;
行为标注模块,用于对所述超图序列进行实时行为标注,得到用户行为标注序列,以确定用户行为类型。
第三方面,本发明还提供了一种计算机设备,包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行实现上述方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供了一种用户行为识别方法、系统、计算机设备和存储介质,通过所述方法将捕获的IP数据流汇聚为各个用户的访问流,通过时间窗口将每一个用户访问流进行分割;同时,本发明将用户访问流每一个时间窗片段中的IP地址映射到超图空间的相应坐标点,并将属性特征映射为超图空间中相应坐标点上的图层灰度,以实现用户行为识别。与现有技术相比,该方法能够使网络管理员在不需要解密及获取高层信息的条件下,通过统一的IP流特征推断用户端的访问行为;本发明提供的方法在网络链路层面实现用户行为识别,有助于网络管理者实现链路级的定制化监控与管理、网络流量识别与控制、流量层面的用户行为控制、边界的访问控制、网络流的安全检测等,极大地丰富了网络链路层面的监管手段。
附图说明
图1是本发明实施例提供的一种用户行为识别方法流程示意图;
图2是本发明实施例提供的部署位置示意图;
图3是本发明实施例提供的一种用户行为识别方法过程示意图;
图4是本发明实施例提供的IP地址与用户行为标注编码示意图;
图5是本发明实施例提供的流量分离示意图;
图6是本发明实施例提供的IP2vec模型示意图;
图7是本发明实施例提供的超图序列标注模型示意图;
图8是本发明实施例提供的超图序列标注模型的结构单体示意图;
图9是本发明实施例提供的一种用户行为识别系统框图;
图10是本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
参见图1,图1是本发明一实施例提供的一种用户行为识别方法,可应用于各种类型的网络链路级管理,该方法包括:
S1.采集网络链路上的实时流量数据,得到实时IP数据流;。
在一个实施例中,本实施例在指定的网络链路上通过捕获工具实时采集网络数据流,得到实时IP数据流;其中,进行采集的采集点包括企业网络的边界、主干网络的核心链路、以及局部网络的内部支路等链路级位置,所述捕获工具包括TCPDUMP、Endace采集卡以及分光器,所述实时IP数据流包括pcap文件;本实施例以将系统部署在企业网络A的边界进行说明,如图2所示,当系统部署在企业网络A的边界处时,本实施例通过上述网络数据捕获工具可以采集到企业网络A中所有用户与互联网B交互的网络数据流。
需要说明的是,如图3所示,本实施例通过训练阶段的训练样本数据流和实测阶段的实测样本数据流实现用户行为识别,除非特别说明,所述方法均适用于训练样本数据流以及实测样本数据流。
S2.对所述IP数据流进行预处理,得到相应的编码向量和属性特征。
在一个实施例中,在训练阶段,本实施例通过捕获工具采集网络链路上用于训练的流量数据,得到IP数据流训练样本,为了使模型的训练达到更好的效果,在采集到的所述IP数据流训练样本中,本实施例对互联网侧的IP地址、预设的用户行为标注分别进行one-hot编码,如图4所示,采用one-hot编码处理IP地址以及预设的用户行为标注的步骤包括:
收集所有位于互联网侧的IP地址,构成地址集合IPB,所述地址集合IPB包含的地址数为|IPB|;
收集所有的用户行为标注,构成用户行为标注集合L,所述用户行为标注集合L包含的标注总数为|L|;
定义(|IPB|+|L|)个二进制码串Z,令每个二进制码串的长度均为(|IPB|+|L|);
对于地址集合IPB中的第m个IP地址,其编码为二进制码串Z中的第m个二进制码串Zm,且在二进制码串Zm中,第m个比特设置为“1”,其余所有比特位设置为“0”;
在本实施例中,所述用户行为标注为用户通过IP数据流所访问网络服务的类型,比如:社交、视频、游戏等等;本实施例通过编码将所有的目的IP以及用户行为标注分别赋予一个唯一的ID标识符,本实施例采用one-hot编码可以保证任意两个编码都具有相同的最大码间距离。
在本实施例中,所述互联网侧的IP地址与预设的用户行为标注在训练阶段完成编码后,在实测阶段,本实施例可以根据编码表,即训练阶段建立的“one-hot编码与IP地址对照表”查找每一个IP地址对应的one-hot编码。
在一个实施例中,本实施例对得到的所有所述IP地址one-hot编码以用户为单元进行流量分离,得到用户数据流。
本实施例以用户的IP地址为单元,将企业网络A中的同一IP地址对应的one-hot编码归并到此用户的流集合中,得到企业网络A中每一个IP地址在设定观测时间内的所有访问过的IP地址的one-hot编码,包括上行与下行。
需要说明的是,由于系统部署在企业网络A的边界,因此,常规的NAT(NetworkAddress Translation,网络地址转换)不影响系统获取企业网络A中用户的真实IP,即根据企业网络A中的真实IP进行数据流分离是可行的。
本实施例将企业网络A中第i个IP地址的one-hot编码,记为IPi A,以四元组为依据把所有由IPi A发出及接收的分组组织为“流”,四元组包括:IPi A的端口,与IPi A通信的外部IP,外部通信IP的端口以及协议类型;图5表示在观测期间,与相关的K个数据流,其中,flowi,k部分代表由构成的一个“流”,其中,表示IPi A的第k个端口,表示位于互联网侧B中的one-hot编码为g的IP地址,表示的第h个端口,TCP表示此流属于TCP流,在图5中,空心矩形表示IPi A发出的上行分组,实心矩形表示IPi A收到的下行分组。
在一个实施例中,本实施例通过预先设定的时间窗口对以用户为单元的用户数据流进行窗口分割,得到此用户的窗口流片段,随着时间的演变,得到该用户数据流随时间演变的窗口序列;在本实施例中,所述时间窗口可以定义为固定时间长度以及步长,比如:窗口宽度为1秒、步长为0.5秒等;所述时间窗口也可以定义为分组的个数,比如:窗口宽度为10个分组,步长为5个分组,其中,步长的定义决定相邻窗口是否交叠。
在一个实施例中,在训练阶段,对于企业网络A中一个给定地址的第w个时间窗口,本实施例根据所述训练样本数据已存在的用户行为标注,对所述窗口流片段赋予一个已知的用户行为类别标签,从而用于指导模型训练时的参数调整;在本实施例中,标签可以通过参与模型训练的用户提供,比如:用户通过一个列表记录自己的访问行为及时间;另外,标签也可以通过第三方获取,比如:通过L7filter数据包分类器获取。
在训练阶段,本实施例将任一时间窗口中的用户行为类别标签,以及此时间窗口中涉及到的所有位于互联网侧B的IP地址的one-hot编码组成一个集合,作为后续IP2vec模型的IP训练集,本实施例定义IP训练集为α={α1,α2,…,αu},IP训练集中的每个元素αu包括:窗口u中的用户行为类别标签、以及在窗口u中的所有位于互联网侧B的IP地址的one-hot编码。
在一个实施例中,本实施例对每个窗口中的窗口流片段进行特征提取,得到属性特征,以用于后续的用户行为识别,在本实施例中,所述属性特征可以采用常规的指标,比如:分组的字节数与吞吐量;所述属性特征也可以根据实际实施情况自定义特征指标,比如:IP地址的熵、均值、方差等;所述属性特征也可以过神经网络获取的多个物理特征的编码,比如:把不同的分组原始特征输入自编码器得到的编码;本实施例不对特征的形式和内容进行限定,本领域技术人员可根据具体实施情况选取。
本实施例定义流片段特征集合β={β1,β2,...βv},每一个集合元素βv包括某个时间窗口中每一个窗口流片段的属性特征、以及在此时间窗口中,位于互联网侧B的IP地址对应的编码向量。
在训练阶段,βv与αu是对应的两个元素,对于给定的IPi A,若第w个时间窗口中包含K个不同的流,则流片段特征可以表示为其中,表示在时间窗口w中,第k个窗口流片段的属性特征以及其IP地址的one-hot编码,l表示时间窗口w的用户行为类别标签;在实测阶段,所述流片段特征可以表示为
在本实施例中,对于企业网络A中的一个地址IPi A,在给定的观测窗口序号[1,W]中,可以得到一个流片段特征序列流片段特征序列用于刻画窗口的流量特点,在具有大量用户行为标注的一致的流片段特征序列样本的条件下,可以利用这些特征序列挖掘出相同用户行为所产生的数据流的潜在规律,从而可以利用这些特征序列来识别用户行为。
S3.根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图。
在训练阶段,本实施例利用所述IP训练集对IP2vec模型进行模型训练,根据训练好的IP2vec模型得到相应的超图表达模型,本实施例通过对IP2vec模型进行训练,使one-hot编码的IP地址可以映射为具有语义信息的矢量,便于后续的数据分析,需要说明的是,在本实施例中,所述语义表示经IP2vec映射后,相似矢量所对应的IP地址是相同用户行为作用下经常并发出现的IP,本实施例通过训练IP2vec模型,在用户行为语义的层面上实现符号型IP地址的量化表达。
在一个实施例中,所述IP2vec模型为多层的神经网络模型,输入层包含(|IPB|+|L|)个神经元,用于接收IP地址one-hot编码;隐藏层维度为N,用于对IP地址的one-hot编码进行压缩及矢量化;输出层包含K个单元;需要说明的是,在本实施例中,N与K由用户在使用前根据具体实施情况设定。
图6右侧末端的(K-1)个单元用于表示在一个时间窗口中,与输入端IP并发出现的(K-1)个地址,这(K-1)个地址不一定是与输入端IP并发出现的地址的全集,当时间窗口中唯一IP个数大于指定的K时,这(K-1)个地址为这些地址中随机选择的一个子集;图6中左侧末端的一个单元表示输入端IP所在时间窗口的用户行为标注的one-hot编码。
在一个实施例中,所述IP2vec模型的训练过程包括以下步骤:
(1)选取企业网络A中的任一IP地址,得到指定观测时段内该IP地址的所有网络流数据;
(2)从该IP地址的第一个时间窗口开始,得到指定时间窗口中所有位于互联网侧B的IP地址对应的one-hot编码集合、以及此时间窗口的用户行为标注的one-hot编码;
(3)随机选取此窗口中K个位于互联网侧B的IP地址对应的one-hot编码作为待训练IP子集,用于待训练神经网络模型的输出;
(4)从所述待训练IP子集随机选取一个作为IP2vec模型的输入,剩余的(K-1)个作为输出层最右侧的(K-1)单元的标注数据,窗口的用户行为标注作为输出层最左侧的一个单元的标注数据,以用于指导IP2vec模型的训练学习,重复此步骤,直至所述待训练IP子集中的各个元素均用于输入层进行模型训练;
(5)重复上述步骤(3)、(4),遍历此窗口中所有位于互联网侧B的IP地址;
(6)移动一个单元的时间窗口,重复上述步骤(2)~(5);
(7)更换一个企业网络A的IP地址,重复上述步骤(1)~(6),直到所有训练数据完成为止。
在训练阶段,如图3所示,本实施例根据数据预处理得到的编码向量和属性特征,得到IP及属性集合训练序列,并将相应的IP训练集合输入后续的IP2vec模型进行训练;在实测阶段,本实施例根据数据预处理得到的编码向量和属性特征,得到IP及属性集合待测序列,并将其输入超图表达模型,以得到相应的超图序列。
在一个实施例中,如图6所示,本实施例将IP2vec模型中虚线框部分的框架提取出来,得到超图表达模型。
在本实施例中,对于某个给定的时间窗口,本实施例将此窗口中每一个属于互联网侧B的IP地址的one-hot编码输入所述超图表达模型的输入层,得到IP数据流片段在超图中的坐标位置;本实施例通过超图表达模型将企业网络A中的每一个IP地址的通信流量数据映射至一个N维超图上,用于后续的数据分析处理,需要说明的是,由于本实施例是根据用户的网络流数据标注出该用户在指定时间窗口内的行为属性,因此,超图表达模型是以预处理中的时间窗口为单位进行处理。
S4.基于所述多图层超图,根据连续时间窗口中的IP数据流,得到与时间窗口相应的超图序列。
本实施例根据得到的坐标位置,得到IP数据流中的每一个IP地址在超图空间中的坐标点,并将此坐标点视为N维超图上的一个像素点。
由于通过预处理得到的属性特征具有多维度,因此,本实施例根据属性特征的维度为超图建立相应的图层,使得超图中的每一个图层与属性特征中的维度一一对应,超图的图层建立起来后,在每一个时间窗口中,本实施例将每一个属性特征映射为超图中对应像素点相应图层的灰度,本实施例将每一个时间窗口中的窗口流片段转换为一个超图,从而得到超图序列。
在本实施例中,所述超图表达模型将每一个时间窗口中的属性特征映射到超图上,在本发明实施例中,超图是一种特殊的图像,普通的图像是二维、三维,而本实施例中的超图是高于三维的高维图像,它的维度取决于上述IP2vec模型输出的矢量维度;利用超图表达模型,每一个IP地址被映射为一个坐标点(像素点),同时,根据数据预处理中的窗口流片段的特征提取,把每一个窗口流片段的属性特征映射为该窗口流片段的IP在超图中相应像素点的灰度,在本实施例中,超图表达模型将每一个时间窗口的属性特征表达为一个超图的形式,在本实施例中,超图表达模型通过每一个窗口中IP地址的one-hot编码及窗口流片段的属性特征,得到与该窗口对应的多图层超图。
S5.对所述超图序列进行实时行为标注,得到用户行为标注序列,以确定用户行为类型。
在一个实施例中,本实施例将用于训练的超图序列样本输入超图序列标注模型进行训练,得到超图序列标注模型参数。
在训练阶段,本实施例将用于训练的超图序列作为训练数据集输入超图序列标注模型,通过模型训练得到相应的超图序列标注模型参数,在本实施例中,所述超图序列标注模型采用支持多维数据输入的时序模型,本实施例优先选取长短期记忆网络(LSTM)模型作为超图序列标注模型,如图7所示,LSTM模型包括若干串联的LSTM单元,其中,所述LSTM单元的数量由具体实施情况中的任务及计算能力决定,此处不进行限定;在本实施例中,每一个LSTM单元包括三个输入端、两个输出端以及与所述输入端连接的编码器en;在图7中,Xw表示某个用户超图序列中第w个窗口对应的超图,Xw是LSTM模型的输入端;Lw表示超图Xw对应的用户行为标注,Lw是LSTM模型的输出端,在训练过程中,本实施例通过设置已知的标注调整LSTM模型参数;cw表示LSTM模型的内部状态值,传递给下一个LSTM模型。
在一个实施例中,如图8所示,与标准的LSTM单元不同,本发明实施例在Xw输入端添加了一个编码器en(·),所述编码器用于支持超高维度的超图数据压缩编码,其中,所述LSTM单元中的数值关系可以描述为:
Lw=ow⊙tanh(cw)
其中,Xw表示第w个时间窗口对应的超图帧,fw表示忘记门,cw表示LSTM模型的内部状态值,表示上一时刻估计的当前的内部状态值,iw表示输入门,Lw表示最终输出的隐藏层状态,ow表示输出门,W、b表示超图序列标注模型参数。
本实施例采用的LSTM模型不仅适用于高维的超图输入,而且可以利用超图序列的上下文信息使超图序列的标注达到整体最优的效果。
在一个实施例中,本实施例通过上述步骤得到所述超图序列标注模型参数,利用所述超图序列标注模型参数,对实测得到的所述超图序列进行实时行为标注,得到用户行为标注序列,形成用户的网络访问行为轮廓。
本实施例通过对超图序列进行实时行为标注,得到每一个超图帧的最大概率用户访问行为属性;本发明实施例提供的方法面向网络链路,能够使网络管理者在不需要获取数据流的高层信息、无需解密数据流、无需涉及用户端数据隐私的情况下,仅通过常规IP数据流信息即可推断出用户端的行为类型,可适用于不同类型、不同性质、不同条件的网络场景。
本实施例在数据预处理中以用户端IP为依据,将网络链路上捕获的IP数据流汇聚为各个用户的访问流,通过时间窗口将每一个用户访问流进行分割;本实施例将用户访问流每一个时间窗口中的IP地址映射到超图空间的相应坐标点,同时将属性特征映射为超图空间中相应坐标点上的图层灰度,另外,本实施例利用超图序列训练样本训练超图序列标注模型,使训练好的模型能够根据超图序列识别出相应的用户行为标注序列;本实施例提供的方法能够使网络管理员在不需要解密以及获取高层信息的条件下,通过统一的IP数据流特征获取用户端的访问行为;另外,本实施例提供的方法适用于各种类型的网络链路级管理,包括企业网、接入网、数据中心网络、数据骨干网等,相应的应用包括:链路级的监控与管理、网络流量识别与控制、流量层面的用户行为控制、边界的访问控制、网络流的安全检测等。
需要说明的是,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一个实施例中,如图9所示,提供了一种用户行为识别系统,所述系统包括:
数据采集模块101,用于采集网络链路上的实时流量数据,得到实时IP数据流;
数据预处理模块102,用于对所述IP数据流进行预处理,得到相应的编码向量和属性特征;
流量分析模块103,用于根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图,并基于所述多图层超图,根据连续时间窗口中的IP数据流,得到与时间窗口相应的超图序列;
行为标注模块104,用于对所述超图序列进行实时行为标注,得到用户行为标注序列,以确定用户行为类型。
关于一种用户行为识别系统的具体限定可以参见上述对于一种用户行为识别方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
与现有技术相比,本实施例提供的系统通过数据预处理模块、流量分析模块以及行为标注模块实现了通过捕获得到的IP数据流推断出用户端的访问行为类型及其随时间演变的规律,本实施例提供的系统适用于各种类型的网络链路级管理,包括企业网、接入网、数据中心网络、数据骨干网等,本实施例在网络链路层面实施用户行为识别,有助于网络管理者实施链路级的定制化监控与管理、网络流量识别与控制、流量层面的用户行为控制、边界的访问控制、网络流的安全检测等,极大地丰富了网络链路层面的监管手段。
图10是本发明实施例提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的一种用户行为识别方法、系统、设备及存储介质,其一种用户行为识别方法通过网络层的IP数据流获取用户端的访问行为类别以及其随时间演变的规律。本发明实施例提供的用户行为识别方法可适用于各种类型的网络链路级管理,包括企业网、接入网、数据中心网络、数据骨干网等,相关的应用包括:链路级的监控与管理、网络流量识别与控制、流量层面的用户行为控制、边界的访问控制、网络流的安全检测等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用户行为识别方法,其特征在于,包括以下步骤:
采集网络链路上的实时流量数据,得到实时IP数据流;
对所述IP数据流进行预处理,得到相应的编码向量和属性特征;
根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图;
基于所述多图层超图,根据连续时间窗口中的IP数据流,得到与时间窗口相应的超图序列;
对所述超图序列进行实时行为标注,得到用户行为标注序列,以确定用户行为类型。
2.如权利要求1所述的一种用户行为识别方法,其特征在于,所述对所述IP数据流进行预处理,得到相应的编码向量和属性特征的步骤包括:
在训练阶段,采集网络链路上用于训练的流量数据,得到IP数据流训练样本,并对所述IP数据流训练样本与预设的用户行为标注进行拼接、编码,得到编码表;
根据训练得到的编码表,获取所述IP数据流中每一个IP地址的编码向量;
对得到的所有所述编码向量以用户为单元进行流量分离,得到用户数据流;
利用预设时间窗口对所述用户数据流进行窗口分割,得到窗口流片段;
对每个所述窗口流片段进行特征提取,得到属性特征。
3.如权利要求1所述的一种用户行为识别方法,其特征在于,根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图的步骤包括:
在网络链路上采集用于模型训练的流量数据,得到IP数据流训练样本;
根据所述IP数据流训练样本以及预设的用户行为标注训练神经网络模型;
根据训练好的神经网络模型得到相应的超图表达模型;
将实时IP数据流中每一个IP地址的编码向量输入所述超图表达模型,得到预设时间窗口中的IP数据流在超图中的坐标位置。
4.如权利要求3所述的一种用户行为识别方法,其特征在于,所述根据所述IP数据流训练样本以及预设的用户行为标注训练神经网络模型的步骤包括:
在训练阶段,选取所述IP数据流训练样本在给定时间窗口中任一IP地址,并将其作为待训练的神经网络模型的输入;
在与所述IP地址处于相同的时间窗口中,将部分剩余的互联网侧的IP地址编码向量、以及此时间窗口预设的用户行为标注对应的编码向量作为待训练的神经网络模型的输出,以进行有监督学习;
保留待训练神经网络模型输出中的用户行为标注对应的编码向量,随机更换此时间窗口中与待训练神经网络模型输入端不同的互联网侧的IP地址编码向量,重复这一步并遍历所有可能组合;
对输入端的IP地址,遍历此时间窗口中所有位于互联网侧的IP地址;
移动至下一个时间窗口,重复上述步骤,直至完成模型训练。
5.如权利要求1所述的一种用户行为识别方法,其特征在于,所述基于所述多图层超图,根据时间窗口中连续的IP数据流,得到与时间窗口相应的超图序列的步骤包括:
根据所述超图表达模型将实时IP数据流中每一个观测到的IP地址映射到超图中的像素点;
对于每一个IP地址,利用其在每一个预设时间窗口中的属性特征的维度,建立所述超图空间的图层;
将任一IP地址在每一个预设时间窗口中的属性特征映射为超图空间中对应像素点各个图层的灰度,得到每一个时间窗口的IP数据流的多图层超图表达,将连续时间窗口所对应的若干多图层超图串接,得到超图序列。
6.如权利要求1所述的一种用户行为识别方法,其特征在于,所述对所述超图序列进行实时行为标注,得到用户行为标注序列的步骤包括:
根据预先训练得到的超图序列标注模型,获取超图序列标注模型参数;
基于所述超图序列标注模型参数,对所述超图序列进行实时行为标注,得到用户在每一个时间窗口的行为标注。
7.如权利要求6所述的一种用户行为识别方法,其特征在于:所述超图序列标注模型为长短期记忆网络模型;
所述长短期记忆网络模型包括若干个串联的长短期记忆网络单元,每个长短期记忆网络单元均包括三个输入端、两个输出端以及与所述输入端连接的编码器。
8.一种用户行为识别系统,其特征在于,所述系统包括:
数据采集模块,用于采集网络链路上的实时流量数据,得到实时IP数据流;
数据预处理模块,用于对所述IP数据流进行预处理,得到相应的编码向量和属性特征;
流量分析模块,用于根据所述编码向量以及预先构建的超图表达模型,将预设时间窗口内的IP数据流及其属性特征转换为多图层超图,并基于所述多图层超图,根据连续时间窗口中的IP数据流,得到与时间窗口相应的超图序列;
行为标注模块,用于对所述超图序列进行实时行为标注,得到用户行为标注序列,以确定用户行为类型。
9.一种计算机设备,其特征在于:包括处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述计算机设备执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056222.1A CN113904961B (zh) | 2021-09-09 | 2021-09-09 | 一种用户行为识别方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111056222.1A CN113904961B (zh) | 2021-09-09 | 2021-09-09 | 一种用户行为识别方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113904961A true CN113904961A (zh) | 2022-01-07 |
CN113904961B CN113904961B (zh) | 2023-04-07 |
Family
ID=79028084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111056222.1A Active CN113904961B (zh) | 2021-09-09 | 2021-09-09 | 一种用户行为识别方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113904961B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461468A (zh) * | 2022-01-21 | 2022-05-10 | 电子科技大学 | 一种基于人工神经网络的微处理器应用场景识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120278476A1 (en) * | 2011-04-29 | 2012-11-01 | International Business Machines Corporation | Predictive placement of content through network analysis |
CN109446385A (zh) * | 2018-11-14 | 2019-03-08 | 中国科学院计算技术研究所 | 一种建立网络资源的设备图谱的方法以及所述设备图谱的使用方法 |
CN110166287A (zh) * | 2019-05-05 | 2019-08-23 | 南京邮电大学 | 一种基于带权超图的同一用户识别方法 |
CN111967362A (zh) * | 2020-08-09 | 2020-11-20 | 电子科技大学 | 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法 |
CN113344638A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
-
2021
- 2021-09-09 CN CN202111056222.1A patent/CN113904961B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120278476A1 (en) * | 2011-04-29 | 2012-11-01 | International Business Machines Corporation | Predictive placement of content through network analysis |
CN109446385A (zh) * | 2018-11-14 | 2019-03-08 | 中国科学院计算技术研究所 | 一种建立网络资源的设备图谱的方法以及所述设备图谱的使用方法 |
CN110166287A (zh) * | 2019-05-05 | 2019-08-23 | 南京邮电大学 | 一种基于带权超图的同一用户识别方法 |
CN111967362A (zh) * | 2020-08-09 | 2020-11-20 | 电子科技大学 | 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法 |
CN113344638A (zh) * | 2021-06-29 | 2021-09-03 | 云南电网有限责任公司信息中心 | 一种基于超图的电网用户族群画像构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
唐志斌: "网络数据采集及安全审计技术研究综述", 《网络新媒体技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461468A (zh) * | 2022-01-21 | 2022-05-10 | 电子科技大学 | 一种基于人工神经网络的微处理器应用场景识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113904961B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163594B (zh) | 一种网络加密流量识别方法及装置 | |
CN112839034B (zh) | 一种基于cnn-gru分层神经网络的网络入侵检测方法 | |
CN109831422B (zh) | 一种基于端到端序列网络的加密流量分类方法 | |
CN111144470A (zh) | 一种基于深度自编码器的未知网络流量识别方法及系统 | |
CN111401063B (zh) | 一种基于多池化网络的文本处理方法、装置和相关设备 | |
CN115967504A (zh) | 加密恶意流量检测方法、装置、存储介质及电子装置 | |
CN112165484A (zh) | 基于深度学习与侧信道分析的网络加密流量识别方法装置 | |
CN113591674B (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN117082118B (zh) | 基于数据推导及端口预测的网络连接方法 | |
CN116958586A (zh) | 基于多尺度注意力胶囊网络的物联网设备识别方法及系统 | |
CN114826776B (zh) | 一种用于加密恶意流量的弱监督检测方法及系统 | |
CN115361195A (zh) | 一种基于时空代价成本的大规模物联网流量多分类方法 | |
CN113904961B (zh) | 一种用户行为识别方法、系统、设备及存储介质 | |
CN116232696A (zh) | 基于深度神经网络的加密流量分类方法 | |
CN117527391A (zh) | 基于注意力机制和一维卷积神经网络的加密流量分类方法 | |
CN108234452A (zh) | 一种网络数据包多层协议识别的系统和方法 | |
Zhou et al. | Encrypted network traffic identification based on 2d-cnn model | |
CN113887642B (zh) | 一种基于开放世界的网络流量分类方法及系统 | |
CN114615088A (zh) | 一种终端业务流量异常检测模型建立方法及异常检测方法 | |
CN117391585B (zh) | 工业互联网的仓储信息管理方法以及系统 | |
CN111130942A (zh) | 一种基于消息大小分析的应用流量识别方法 | |
CN115622810B (zh) | 一种基于机器学习算法的业务应用识别系统及方法 | |
CN116599907A (zh) | 网络流量处理方法及装置、设备、存储介质 | |
CN113852605B (zh) | 一种基于关系推理的协议格式自动化推断方法及系统 | |
CN114358177A (zh) | 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |