CN113672777A - 一种基于流量关联分析的用户意图探索方法及系统 - Google Patents

一种基于流量关联分析的用户意图探索方法及系统 Download PDF

Info

Publication number
CN113672777A
CN113672777A CN202111006571.2A CN202111006571A CN113672777A CN 113672777 A CN113672777 A CN 113672777A CN 202111006571 A CN202111006571 A CN 202111006571A CN 113672777 A CN113672777 A CN 113672777A
Authority
CN
China
Prior art keywords
user
behavior
social
users
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111006571.2A
Other languages
English (en)
Other versions
CN113672777B (zh
Inventor
杨贻宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feiqi Network Technology Co ltd
Original Assignee
Shanghai Feiqi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feiqi Network Technology Co ltd filed Critical Shanghai Feiqi Network Technology Co ltd
Priority to CN202111006571.2A priority Critical patent/CN113672777B/zh
Publication of CN113672777A publication Critical patent/CN113672777A/zh
Application granted granted Critical
Publication of CN113672777B publication Critical patent/CN113672777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于计算机网络的用户意图探索技术领域或流量关联分析领域,提供了一种基于流量关联分析的用户意图探索方法,包括:获取网络中的所有用户及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图;基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合;从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类得到多个社交族;本发明基于“用户相似度”的概念,应用谱聚类理论将用户连接图划分为各个子簇,反映了用户的“社会团体行为”;然后,利用传统的划分法对用户结点进行了分类;最后,完成了行为子簇到标签的映射,实现了基于流量精确识别去探索用户意图的目的。

Description

一种基于流量关联分析的用户意图探索方法及系统
技术领域
本发明属于计算机网络的用户意图探索技术领域或流量关联分析领域,尤其涉及一种基于流量关联分析的用户意图探索方法及系统。
背景技术
随着P2P业务和新兴业务的出现,大量随机端口和加密技术被用于数据传输,导致基于端口和深度报文检测的用户意图探索方法逐步失效。为了不依赖于报文负载进行检测,基于机器学习的流量分类技术受到了关注。它通过提取网络流量的统计特征,将网络流量抽象为由一组统计特征值构成的属性向量,实现了由流量分类向机器学习的转化。
但是基于机器学习的用户意图探索方法最大的问题在于:高速网络中,提取流量特征的时间复杂度一般随所统计的报文数量线性增加:概念漂移问题,即在时刻t得到的最佳分类模型yt,与前一时刻t-1得到的最佳分类模型yt-1不一致,导致这种现象的原因是网络时空幻境和网络应用分布发生变化。
不仅如此,机器学习还需要提取流的统计特征、事先构造和逐一匹配用户模式图,增加了算法的计算复杂度。
发明内容
本发明的目的在于提供一种基于流量关联分析的用户意图探索方法及系统,从传统的“IP流”转移到“用户”上进行研究,将{IP地址,端口}作为用户标识,构建了用户连接图模型;其次,基于“用户相似度”的概念,应用谱聚类理论将用户连接图划分为各个子簇,反映了用户的“社会团体行为”;然后,利用传统的划分法对用户结点进行了分类;最后,完成了行为子簇到标签的映射,实现了基于流量精确识别去探索用户意图的目的。
本发明提供了一种基于流量关联分析的用户意图探索方法,包括:获取网络中的所有用户及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图;
基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合;
从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类得到多个社交族;
将任意一个所述行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 453254DEST_PATH_IMAGE001
、社交族
Figure 832282DEST_PATH_IMAGE002
及社交族
Figure 226355DEST_PATH_IMAGE003
将所述社交族
Figure 778559DEST_PATH_IMAGE004
、社交族
Figure 371214DEST_PATH_IMAGE002
及社交族
Figure 124406DEST_PATH_IMAGE005
作为所述行为子簇的标签。
进一步的,所述获取网络中的所有用户和及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图,具体包括:
S1:获取网络中所有用户的IP地址和端口号,用{IP地址,端口}作为用户的唯一标识,并抽象为用户连接图上的一个用户节点;
S2:基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵;
其中,用户行为方式包括:
对于UDP流,任意两个用户之间发送了第一个报文;
对于TCP流,任意两个用户之间发送了第一个SYN报文;
用户之间通信的字节总数或者报文总数大于预设阈值。
进一步的,所述S2:基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵,具体包括:
S21:根据用户是否直接通信,构造用户连接图相邻用户集合;
S22:根据相邻用户间具有共同的业务应用,计算相邻用户的行为距离;
S23:根据非相邻用户间具有相似的业务应用,计算非相邻用户的行为距离;
S24:根据所述相邻用户的行为距离和非相邻用户的行为距离,构造行为关联矩阵。
进一步的,所述基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合,具体包括:
输入行为关联矩阵,初始化选择K个聚簇中心,K为自然数;
利用K-means聚类方法,直到找到最佳的K个聚簇中心;
任意用户结点归并到相应的聚簇,形成K个子簇,得到子簇集合C。
进一步的,所述从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类,得到多个社交族,具体包括:
统计抽取出的所有社交属性特征,汇总得到社交属性特征规则库;
对所述社交属性特征进行划分,近似的社交属性特征划分至同一类社交族,汇总得到社交族群。
进一步的,将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 864829DEST_PATH_IMAGE001
、社交族
Figure 361670DEST_PATH_IMAGE002
及社交族
Figure 871149DEST_PATH_IMAGE003
,具体包括:
将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z;
从所述用户X、用户Y及用户Z中抽取对应的社交属性特征,与社交属性特征规则库中记录的用户社交属性特征进行匹配;
根据匹配结果判断出所述用户X所属的社交族
Figure 591980DEST_PATH_IMAGE004
,并将与用户X相关联的用户归类至社交族
Figure 960644DEST_PATH_IMAGE004
根据匹配结果判断出所述用户X所属的社交族
Figure 609976DEST_PATH_IMAGE002
,并将与用户Y相关联的用户归类至社交族
Figure 849328DEST_PATH_IMAGE002
根据匹配结果判断出所述用户X所属的社交族
Figure 68956DEST_PATH_IMAGE005
,并将与用户Z相关联的用户归类至社交族
Figure 456075DEST_PATH_IMAGE003
最后得到已标记用户集,并标记出用户X、用户Y、及用户Z的用户类型,用户位置,所属的族群。
本发明还提供了一种基于流量关联分析的用户意图探索系统,所述系统包括:
用户连接图构建模块:用于获取网络中的所有用户及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图;
用户连接图划分模块:用于基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合;
分类模块:用于从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类得到多个社交族;
匹配模块:用于将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 888194DEST_PATH_IMAGE004
、社交族
Figure 247631DEST_PATH_IMAGE002
及社交族
Figure 638161DEST_PATH_IMAGE003
贴标签模块:将所述社交族
Figure 512576DEST_PATH_IMAGE004
、社交族
Figure 623752DEST_PATH_IMAGE002
及社交族
Figure 729373DEST_PATH_IMAGE005
作为所述行为子簇的标签。
进一步的,所述系统包括:所述用户连接图构建模块包括:
获取单元:用于获取网络中所有用户的IP地址和端口号,用{IP地址,端口}作为用户的唯一标识,并抽象为用户连接图上的一个用户节点;
确定单元:用于基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵。
进一步的,所述匹配模块包括:
排序单元:用于将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z;
抽取单元:从所述用户X、用户Y及用户Z中抽取对应的社交属性特征,与社交属性特征规则库中记录的用户社交属性特征进行匹配;
判断单元:用于根据匹配结果判断出所述用户X、用户Y、用户Z所属的社交族
Figure 962908DEST_PATH_IMAGE001
Figure 527882DEST_PATH_IMAGE002
Figure 567382DEST_PATH_IMAGE003
,并将与用户X、Y、Z相关联的用户分别归类至社交族
Figure 166991DEST_PATH_IMAGE004
Figure 899323DEST_PATH_IMAGE002
Figure 951593DEST_PATH_IMAGE005
本发明所提出的技术方案,具有以下有益效果:
1、本发明通过用户意图探索进行业务识别,不依赖于负载信息和流的统计信息,克服了“概念漂移”现象,提高了识别准确性能;同时,算法也不需要提取流的统计特征、事先构造和逐一匹配用户模式图,能够有效地降低算法的计算复杂度。
、本发明对一个行为子簇中关联的用户量最多的前三名用户进行划分,匹配至其所属的社交族,与之关联的用户大概率具有共同的社交属性特征,因此将关联用户归类相同的社交族,也就将该行为子簇大致分成三类,并对行为子簇贴上所述三名用户的所属的社交族的标签,最终达到“物以类聚、人以群分”的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于流量关联分析的用户意图探索方法流程图;
图2是本发明实施例提供的用户与社交族的匹配图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
请参阅图1,本发明提供了一种基于流量关联分析的用户意图探索方法,包括:获取网络中的所有用户及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图;
基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合;
从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类得到多个社交族;
将任意一个所述行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 263626DEST_PATH_IMAGE001
、社交族
Figure 343839DEST_PATH_IMAGE002
及社交族
Figure 122440DEST_PATH_IMAGE003
将所述社交族
Figure 521060DEST_PATH_IMAGE004
、社交族
Figure 43308DEST_PATH_IMAGE002
及社交族
Figure 476563DEST_PATH_IMAGE005
作为所述行为子簇的标签;
本实施例中,相互关联的用户大概率具有共同的社交属性特征,因此将关联用户归类相同的社交族,从而也就将该行为子簇内的用户大致分成三类,并对行为子簇贴上所述三名用户的所属的社交族的标签,最终实现“物以类聚、人以群分”的目标。
基于以上实施例,所述获取网络中的所有用户和及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图,具体包括:
S1:获取网络中所有用户的IP地址和端口号,用{IP地址,端口}作为用户的唯一标识,并抽象为用户连接图上的一个用户节点;
S2:基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵;
其中,用户行为方式包括:
对于UDP流,任意两个用户之间发送了第一个报文;
对于TCP流,任意两个用户之间发送了第一个SYN报文;
用户之间通信的字节总数或者报文总数大于预设阈值。
本实施例中,将网络用户之间的行为方式通过用户连接图G(V,E)的形式进行抽象,用{IP地址,端口}作为用户的唯一标识,并抽象为连接图上的一个结点,将互联网中每个用户抽象为一个用户结点
Figure 222803DEST_PATH_IMAGE006
,若用户
Figure 984085DEST_PATH_IMAGE007
Figure 169079DEST_PATH_IMAGE008
之间相互通信,则将对应的点连成一条边
Figure 394524DEST_PATH_IMAGE009
,并且边
Figure 514927DEST_PATH_IMAGE010
的权重以用户
Figure 389604DEST_PATH_IMAGE007
Figure 988075DEST_PATH_IMAGE008
之间的相似度来表示。
基于以上实施例,所述S2:基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵,具体包括:
S21:根据用户是否直接通信,构造用户连接图相邻用户集合,若用户
Figure 395923DEST_PATH_IMAGE007
与用户
Figure 687227DEST_PATH_IMAGE008
直接相连,则称
Figure 219840DEST_PATH_IMAGE007
Figure 746636DEST_PATH_IMAGE008
为相邻用户;若
Figure 681094DEST_PATH_IMAGE007
与用户
Figure 877720DEST_PATH_IMAGE011
相连,则用户
Figure 225525DEST_PATH_IMAGE007
的相邻用户集合为
Figure 696957DEST_PATH_IMAGE012
S22:根据相邻用户间具有共同的业务应用,计算相邻用户的行为距离,若用户
Figure 485922DEST_PATH_IMAGE007
Figure 745127DEST_PATH_IMAGE008
为直连通信用户,则定义
Figure 190015DEST_PATH_IMAGE007
Figure 589772DEST_PATH_IMAGE008
的用户行为距离为0(即两个用户具有共同的业务应用);
S23:根据非相邻用户间具有相似的业务应用,计算非相邻用户的行为距离,若
Figure 170926DEST_PATH_IMAGE007
Figure 365147DEST_PATH_IMAGE007
不相邻,且
Figure 94069DEST_PATH_IMAGE007
Figure 641725DEST_PATH_IMAGE007
对应的相邻用户集合为
Figure 139702DEST_PATH_IMAGE013
Figure 239245DEST_PATH_IMAGE014
,则
Figure 658725DEST_PATH_IMAGE007
Figure 806810DEST_PATH_IMAGE007
的用户行为距离等于两个相邻集合相同用户的个数
Figure 988655DEST_PATH_IMAGE015
,例如:
Figure 400045DEST_PATH_IMAGE016
,
Figure 103558DEST_PATH_IMAGE017
,则用户A和用户B的行为距离为3;
进一步的,若用户A和用户C、D、E直接相连(即相邻用户),并且用户B也和用户C、D、E直接相连,则用户A和B都与C、D、E等3个用户相邻,则A和B的行为距离等于3。
进一步的,若用户A和用户C、D、E、F、G直接相连(即相邻用户),并且用户B也和用户C、D、E、F、G直接相连,则用户A和B都与C、D、E、F、G等5个用户相邻,则A和B的行为距离等于5。
S24:根据所述相邻用户的行为距离和非相邻用户的行为距离,构造行为关联矩阵;
具体的:计算相似度矩阵
Figure 117651DEST_PATH_IMAGE018
,其中令用户
Figure 793483DEST_PATH_IMAGE019
的自相似值为最大值
Figure 172511DEST_PATH_IMAGE020
,
Figure 691217DEST_PATH_IMAGE021
;构建
Figure 118788DEST_PATH_IMAGE022
,其中D为对角矩阵,定义为找出L最大的K个特征值
Figure 711443DEST_PATH_IMAGE023
和对应的特征向量
Figure 526952DEST_PATH_IMAGE024
,构成矩阵
Figure 34419DEST_PATH_IMAGE025
;对矩阵
Figure 531260DEST_PATH_IMAGE026
进行规范化处理,得到矩阵
Figure 571897DEST_PATH_IMAGE027
,其中将
Figure 823887DEST_PATH_IMAGE027
的每一行看成RK空间中的一点。
基于以上实施例,所述基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合,具体包括:
输入行为关联矩阵,初始化选择K个聚簇中心,K为自然数;
利用K-means聚类方法,直到找到最佳的K个聚簇中心;
任意用户结点归并到相应的聚簇,形成K个子簇,得到子簇集合C;
具体的,使用K-means将其聚为K类
Figure 926972DEST_PATH_IMAGE028
;如果
Figure 86558DEST_PATH_IMAGE027
的第i行属于,则将用户
Figure 122647DEST_PATH_IMAGE029
划分到子簇集合
Figure 640478DEST_PATH_IMAGE030
中。
基于以上实施例,所述从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类,得到多个社交族,具体包括:
统计抽取出的所有社交属性特征,汇总得到社交属性特征规则库;
对所述社交属性特征进行划分,近似的社交属性特征划分至同一类社交族,汇总得到社交族群;
例如,投资理财、运动健身、都市白领、亲子家庭、青春校园、影视、摄影等。
一个社交族包含多种用户社交属性特征,用户具备一个社交族群中的两个及以上的用户社交属性特征,则将该用户贴上该社交族的标签。
基于以上实施例,将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 230860DEST_PATH_IMAGE004
、社交族
Figure 459716DEST_PATH_IMAGE002
及社交族
Figure 84732DEST_PATH_IMAGE003
,具体包括:
将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,请参阅图2,用户X、用户Y及用户Z分别为第一、第二、第三;
从所述用户X、用户Y及用户Z中抽取对应的社交属性特征,与社交属性特征规则库中记录的用户社交属性特征进行匹配;
若用户X的社交属性特征与社交族
Figure 209683DEST_PATH_IMAGE004
中的两个及以上社交属性特征匹配上,根据匹配结果判断出所述用户X所属的社交族
Figure 287360DEST_PATH_IMAGE004
,并将与用户X相关联的用户归类至社交族
Figure 301932DEST_PATH_IMAGE001
若用户Y的社交属性特征与社交族
Figure 578193DEST_PATH_IMAGE002
中的两个及以上社交属性特征匹配上,根据匹配结果判断出所述用户X所属的社交族
Figure 608466DEST_PATH_IMAGE002
,并将与用户Y相关联的用户归类至社交族
Figure 173439DEST_PATH_IMAGE002
若用户Z的社交属性特征与社交族
Figure 681781DEST_PATH_IMAGE005
中的两个及以上社交属性特征匹配上,根据匹配结果判断出所述用户X所属的社交族
Figure 140444DEST_PATH_IMAGE003
,并将与用户Z相关联的用户归类至社交族
Figure 748143DEST_PATH_IMAGE005
最后得到已标记用户集;
需要说明的是,对于用户X、用户Y及用户Z共同关联的用户,其标签应当为用户X、用户Y及用户Z所拥有的三个标签。
本发明还提供了一种基于流量关联分析的用户意图探索系统,所述系统包括:
用户连接图构建模块:用于获取网络中的所有用户及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图;
用户连接图划分模块:用于基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合;
分类模块:用于从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类得到多个社交族;
匹配模块:用于将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 426511DEST_PATH_IMAGE004
、社交族
Figure 207386DEST_PATH_IMAGE002
及社交族
Figure 395921DEST_PATH_IMAGE003
贴标签模块:将所述社交族
Figure 299155DEST_PATH_IMAGE004
、社交族
Figure 838721DEST_PATH_IMAGE002
及社交族
Figure 485603DEST_PATH_IMAGE005
作为所述行为子簇的标签。
基于以上实施例,所述系统包括:所述用户连接图构建模块包括:
获取单元:用于获取网络中所有用户的IP地址和端口号,用{IP地址,端口}作为用户的唯一标识,并抽象为用户连接图上的一个用户节点;
确定单元:用于基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵。
基于以上实施例,所述匹配模块包括:
排序单元:用于将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z;
抽取单元:从所述用户X、用户Y及用户Z中抽取对应的社交属性特征,与社交属性特征规则库中记录的用户社交属性特征进行匹配;
判断单元:用于根据匹配结果判断出所述用户X、用户Y、用户Z所属的社交族
Figure 794225DEST_PATH_IMAGE001
Figure 71622DEST_PATH_IMAGE002
Figure 459004DEST_PATH_IMAGE003
,并将与用户X、Y、Z相关联的用户分别归类至社交族
Figure 378418DEST_PATH_IMAGE004
Figure 541546DEST_PATH_IMAGE002
Figure 317741DEST_PATH_IMAGE005
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于流量关联分析的用户意图探索方法,其特征在于,
获取网络中的所有用户及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图;
基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合;
从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类得到多个社交族;
将任意一个所述行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 815597DEST_PATH_IMAGE001
、社交族
Figure 454389DEST_PATH_IMAGE002
及社交族
Figure 52860DEST_PATH_IMAGE003
将所述社交族
Figure 867233DEST_PATH_IMAGE004
、社交族
Figure 283171DEST_PATH_IMAGE002
及社交族
Figure 815783DEST_PATH_IMAGE005
作为所述行为子簇的标签;
标记出所述用户X、用户Y、及用户Z的用户类型,用户位置以及所属的族群。
2.如权利要求1所述的一种基于流量关联分析的用户意图探索方法,其特征在于,所述获取网络中的所有用户和及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图,具体包括:
S1:获取网络中所有用户的IP地址和端口号,用{IP地址,端口}作为用户的唯一标识,并抽象为用户连接图上的一个用户节点;
S2:基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵;
其中,用户行为方式包括:
(1)对于UDP流,任意两个用户之间发送了第一个报文;
(2)对于TCP流,任意两个用户之间发送了第一个SYN报文;
(3)用户之间通信的字节总数或者报文总数大于预设阈值。
3.如权利要求2所述的一种基于流量关联分析的用户意图探索方法,其特征在于,所述S2:基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵,具体包括:
S21:根据用户是否直接通信,构造用户连接图相邻用户集合;
S22:根据相邻用户间具有共同的业务应用,计算相邻用户的行为距离;
S23:根据非相邻用户间具有相似的业务应用,计算非相邻用户的行为距离;
S24:根据所述相邻用户的行为距离和非相邻用户的行为距离,构造行为关联矩阵。
4.如权利要求1所述的一种基于流量关联分析的用户意图探索方法,其特征在于,所述基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合,具体包括:
输入行为关联矩阵,初始化选择K个聚簇中心,K为自然数;
利用K-means聚类方法,直到找到最佳的K个聚簇中心;
任意用户结点归并到相应的聚簇,形成K个子簇,得到子簇集合C。
5.如权利要求1所述的一种基于流量关联分析的用户意图探索方法,其特征在于,所述从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类,得到多个社交族,具体包括:
统计抽取出的所有社交属性特征,汇总得到社交属性特征规则库;
对所述社交属性特征进行划分,近似的社交属性特征划分至同一类社交族,汇总得到社交族群。
6.如权利要求5所述的一种基于流量关联分析的用户意图探索方法,其特征在于,将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 952366DEST_PATH_IMAGE006
、社交族
Figure 886824DEST_PATH_IMAGE002
及社交族
Figure 975128DEST_PATH_IMAGE005
,具体包括:
将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z;
从所述用户X、用户Y及用户Z中抽取对应的社交属性特征,与社交属性特征规则库中记录的用户社交属性特征进行匹配;
根据匹配结果判断出所述用户X所属的社交族
Figure 198299DEST_PATH_IMAGE007
,并将与用户X相关联的用户归类至社交族
Figure 528786DEST_PATH_IMAGE001
根据匹配结果判断出所述用户X所属的社交族
Figure 521013DEST_PATH_IMAGE002
,并将与用户Y相关联的用户归类至社交族
Figure 278754DEST_PATH_IMAGE002
根据匹配结果判断出所述用户X所属的社交族
Figure 785958DEST_PATH_IMAGE005
,并将与用户Z相关联的用户归类至社交族
Figure 529923DEST_PATH_IMAGE005
最后得到已标记用户集。
7.一种基于流量关联分析的用户意图探索系统,其特征在于,所述系统包括:
用户连接图构建模块:用于获取网络中的所有用户及其行为方式,将存在共同行为方式的任意两个用户进行关联,得到所述所有用户所构建的用户连接图;
用户连接图划分模块:用于基于谱聚类算法将用户连接图进行行为子簇划分得到行为子簇集合;
分类模块:用于从所述行为方式中抽取出社交属性特征,将所述社交属性特征进行分类得到多个社交族;
匹配模块:用于将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z,为所述用户X、用户Y、用户Z分别匹配对应的社交族
Figure 173394DEST_PATH_IMAGE004
、社交族
Figure 570878DEST_PATH_IMAGE002
及社交族
Figure 299799DEST_PATH_IMAGE003
贴标签模块:将所述社交族
Figure 473554DEST_PATH_IMAGE004
、社交族
Figure 237111DEST_PATH_IMAGE002
及社交族
Figure 212020DEST_PATH_IMAGE005
作为所述行为子簇的标签。
8.如权利要求7所述的一种基于流量关联分析的用户意图探索系统,其特征在于,所述系统包括:所述用户连接图构建模块包括:
获取单元:用于获取网络中所有用户的IP地址和端口号,用{IP地址,端口}作为用户的唯一标识,并抽象为用户连接图上的一个用户节点;
确定单元:用于基于所述用户连接图与所述行为方式,确定多个用户之间的相似性,从而构造关联矩阵。
9.如权利要求7所述的一种基于流量关联分析的用户意图探索系统,其特征在于,所述匹配模块包括:
排序单元:用于将任意一个行为子簇中的用户按照其关联的用户量进行从大到小的排序,得到关联的用户量排名前三的用户X、用户Y及用户Z;
抽取单元:从所述用户X、用户Y及用户Z中抽取对应的社交属性特征,与社交属性特征规则库中记录的用户社交属性特征进行匹配;
判断单元:用于根据匹配结果判断出所述用户X、用户Y、用户Z所属的社交族
Figure 756134DEST_PATH_IMAGE006
Figure 107481DEST_PATH_IMAGE002
Figure 725544DEST_PATH_IMAGE005
,并将与用户X、Y、Z相关联的用户分别归类至社交族
Figure 995988DEST_PATH_IMAGE007
Figure 637185DEST_PATH_IMAGE002
Figure 588960DEST_PATH_IMAGE005
CN202111006571.2A 2021-08-30 2021-08-30 一种基于流量关联分析的用户意图探索方法及系统 Active CN113672777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111006571.2A CN113672777B (zh) 2021-08-30 2021-08-30 一种基于流量关联分析的用户意图探索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111006571.2A CN113672777B (zh) 2021-08-30 2021-08-30 一种基于流量关联分析的用户意图探索方法及系统

Publications (2)

Publication Number Publication Date
CN113672777A true CN113672777A (zh) 2021-11-19
CN113672777B CN113672777B (zh) 2023-09-08

Family

ID=78547440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111006571.2A Active CN113672777B (zh) 2021-08-30 2021-08-30 一种基于流量关联分析的用户意图探索方法及系统

Country Status (1)

Country Link
CN (1) CN113672777B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2569450A1 (en) * 2005-11-30 2007-05-30 Oculus Info Inc. System and method for generating stories in time and space and for analysis of story patterns in an integrated visual representation on a user interface (stories)
CN104298719A (zh) * 2014-09-23 2015-01-21 新浪网技术(中国)有限公司 基于社交行为进行用户的类别划分、广告投放方法和系统
CN106789346A (zh) * 2017-01-22 2017-05-31 中国人民解放军信息工程大学 一种基于用户连接图的深度行为关联方法
CN107291841A (zh) * 2017-06-01 2017-10-24 广州衡昊数据科技有限公司 一种基于位置和用户画像智能匹配社交目标的方法和系统
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN112543196A (zh) * 2020-12-04 2021-03-23 国网山东省电力公司电力科学研究院 一种基于区块链智能合约的网络威胁情报共享平台
CN113158023A (zh) * 2021-02-05 2021-07-23 杭州码全信息科技有限公司 基于混合推荐算法的公共数字生活精准分类服务方法
CN113240505A (zh) * 2021-05-10 2021-08-10 深圳前海微众银行股份有限公司 图数据的处理方法、装置、设备、存储介质及程序产品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2569450A1 (en) * 2005-11-30 2007-05-30 Oculus Info Inc. System and method for generating stories in time and space and for analysis of story patterns in an integrated visual representation on a user interface (stories)
CN104298719A (zh) * 2014-09-23 2015-01-21 新浪网技术(中国)有限公司 基于社交行为进行用户的类别划分、广告投放方法和系统
CN106789346A (zh) * 2017-01-22 2017-05-31 中国人民解放军信息工程大学 一种基于用户连接图的深度行为关联方法
CN107291841A (zh) * 2017-06-01 2017-10-24 广州衡昊数据科技有限公司 一种基于位置和用户画像智能匹配社交目标的方法和系统
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN112543196A (zh) * 2020-12-04 2021-03-23 国网山东省电力公司电力科学研究院 一种基于区块链智能合约的网络威胁情报共享平台
CN113158023A (zh) * 2021-02-05 2021-07-23 杭州码全信息科技有限公司 基于混合推荐算法的公共数字生活精准分类服务方法
CN113240505A (zh) * 2021-05-10 2021-08-10 深圳前海微众银行股份有限公司 图数据的处理方法、装置、设备、存储介质及程序产品

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANGJIAO DUAN等: "indentification of opinion leaders based on user clustering and sentiment analysis", 2014 IEEE INTERNATIONAL JOINT CONFERENCES ON WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGIES, pages 377 - 383 *
张建平等: "一种基于流量与日志的专网用户行为分析方法", 信息安全研究, vol. 6, no. 9, pages 783 - 790 *
曾子明;孙守强;: "基于用户画像的智慧图书馆个性化移动视觉搜索研究", 图书与情报, no. 04, pages 84 - 91 *
赵卫东;吴冉;: "设计思维在商务智能实验教学中的应用", 计算机教育, no. 24, pages 107 - 110 *

Also Published As

Publication number Publication date
CN113672777B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
US20200211721A1 (en) METHOD AND APPARATUS FOR DETERMINING AN IDENTITY OF AN UNKNOWN INTERNET-OF-THINGS (IoT) DEVICE IN A COMMUNICATION NETWORK
CN107392121A (zh) 一种基于指纹识别的自适应设备识别方法及系统
CN110505179A (zh) 一种网络异常流量的检测方法及系统
CN108243191B (zh) 风险行为识别方法、存储介质、设备及系统
Lv et al. CciMST: A clustering algorithm based on minimum spanning tree and cluster centers
WO2021190398A1 (zh) 设备型号的识别方法、装置及系统
CN115600128A (zh) 一种半监督加密流量分类方法、装置及存储介质
CN111701247B (zh) 用于确定统一账号的方法和设备
CN111523588B (zh) 基于改进的lstm对apt攻击恶意软件流量进行分类的方法
CN113723440B (zh) 一种云平台上加密tls应用流量分类方法及系统
CN113706100B (zh) 配电网物联终端设备实时探测识别方法与系统
CN112418289A (zh) 一种不完全标注数据的多标签分类处理方法及装置
CN107729924A (zh) 图片复审概率区间生成方法及图片复审判定方法
CN115118451B (zh) 结合图嵌入知识建模的网络入侵检测方法
CN114584522B (zh) 一种物联网设备的识别方法、系统、介质及终端
CN116094792A (zh) 基于时空特征和注意力机制的加密恶意流识别方法及装置
CN105812280B (zh) 一种分类方法及电子设备
CN112862020B (zh) 一种数据识别方法、装置及存储介质
CN117633627A (zh) 一种基于证据不确定性评估的深度学习未知网络流量分类方法及系统
CN115348198B (zh) 基于特征检索的未知加密协议识别分类方法、设备及介质
CN113672777B (zh) 一种基于流量关联分析的用户意图探索方法及系统
CN114978593B (zh) 基于图匹配的不同网络环境的加密流量分类方法及系统
CN114548678B (zh) 分阶段的设备细粒度类型识别方法及系统
CN110417786B (zh) 一种基于深度特征的p2p流量细粒度识别方法
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant