CN105224593B

CN105224593B - 一种短暂上网事务中频繁共现账号挖掘方法

Info

Publication number: CN105224593B
Application number: CN201510526575.1A
Authority: CN
Inventors: 刘琰; 罗军勇; 尹美娟; 常斌; 孙通; 丁文博; 刘悦蒙
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2019-08-16
Anticipated expiration: 2035-08-25
Also published as: CN105224593A

Abstract

本发明涉及短暂上网事务中频繁共现账号挖掘方法，有效解决对单个上网账号的行为审计扩大到相关的多种应用、多个账号上，从而实现对用户上网行为的跨数据流跟踪和审计的问题，方法是，基于网络分流技术，在网络关口处镜像网络原始数据，基于浮动关键字匹配、正则表达式过滤，对网络中不同应用对应的数据流进行识别，提取社交应用的用户上网数据，按时间和上网地址进行汇总整理，形成上网短暂事务数据库，对待分析的用户上网原始流量所对应的事务数据库中的事务数据，找出频繁项集，计算项集间的重叠率，对频繁项集进行合并，得到归属于同一社会人的多个网络账号，本发明方法简单、易操作，能准确发现隐藏在网络通信流中网络帐号之间的关联性。

Description

一种短暂上网事务中频繁共现账号挖掘方法

技术领域

本发明涉及用户上网行为审计领域，特别是面向网络原始流的跨域上网账号同源性归并的一种短暂上网事务中频繁共现账号挖掘方法。

背景技术

近十年来，随着Web2.0理念的深入，越来越多的在线社交媒体出现，其发展迅速，种类多样。人们在虚拟社会网络空间中的行为直接反映了其在真实世界中的身份、社会关系和活动规律。因此，虚拟社会网络已经形成一种新形态的数字社会，成为连接物理社交世界和虚拟网络空间的桥梁。由于社会媒体详细记录了用户的思想和行为轨迹，这使得利用计算技术观察和研究社会成为可能。因此，社交媒体在定向信息推送、推荐系统、舆论监管等方面占据出举足轻重的地位。

但是，网络的虚拟性和匿名化掩盖了用户的真实身份。由于用户的个性化信息与用户隐私密切相关，所以互联网服务提供商一般会对用户数据进行匿名化处理之后再提供共享或对外发布。而且，社交媒体的丰富资源带来信息交流方式的多样化，人们倾向于使用多种渠道进行线上沟通，并有意识地区分不同网络行为所使用的用户标识，这使得同一个真实的社会实体在虚拟网络环境中拥有多个账号、多重身份。

目前，现有方法基于用户上网登记信息(如接入账号、手机号等)进行有限的账号关联，但是在没有用户上网接入账号的情况下，用户上网行为是无法准确关联的。另一些方法侧重于在单一数据源上对匿名的网络用户进行独立分析和行为审计，但是用户的各种信息会碎片化地散布在各个社交媒体中，单一的社交媒体所提供的信息是不完整的，无法还原一个真实社会实体的上网行为整体全貌。

由于在网络数据中信息是离散、无序的，附属于同一社会实体的多种用户身份的关联线索无据可循，因此在多种数据流空间中对表象独立的用户身份进行关联融合是一个具有挑战性的课题。在现实工作中面临着诸多困难，如：网络流量巨大，导致简单的数据挖掘方法无法满足处理规模的制约；目标社会属性稀缺，导致目标社会身份的推测异常困难；NAT、动态IP等技术广泛应用，导致在难以寻找可靠的用户标识关联依据；数据资源协议多样、形态复杂，导致缺乏有效的方法适应异构的原始数据。

因此，如何在网络原始流中，不依赖先验的线索，自动挖掘跨域上网账号的同源性，关联上网用户对多种社交媒体的访问行为，是必需认真解决的技术问题。

发明内容

针对上述情况，为克服现有技术之缺陷，本发明之目的就是提供基于网络原始数据流来关联一个用户多个上网账号的一种短暂上网事务中频繁共现账号挖掘方法，有效解决对单个上网账号的行为审计扩大到相关的多种应用、多个账号上，从而实现对用户上网行为的跨数据流跟踪和审计的问题。

本发明解决的技术方案是，包括以下步骤：

(1)用户上网数据流获取：基于网络分流技术，在网络关口处镜像网络原始数据，这些数据承载了用户访问各种社交应用的通信数据，包括上网地址、上网账号、时间、应用数据等；

(2)用户上网元数据提取：以网络流量分类方法为基础，基于浮动关键字匹配、正则表达式过滤，对网络中不同应用对应的数据流进行识别，提取社交应用的用户上网数据，形成“元数据”，包括：源IP地址、协议、目的IP地址、时间、社交应用类型和网络账号数据；

(3)短暂上网事务数据库构建：对步骤(2)得到的用户上网“元数据”按时间和上网地址进行汇总整理，形成上网短暂事务数据库，其中每个事务数据代表单位时间内单个本地地址向外访问的社交应用账号集；

(4)频繁共现网络帐号挖掘：对待分析的用户上网原始流量所对应的事务数据库中的每个事务数据，利用频繁模式挖掘算法找出所有事务数据中包含的频繁项集，得到频繁项集集合；

(5)频繁共现网络帐号归并：对每个频繁项集，计算项集间的重叠率，对频繁项集进行合并，将规模较小的项集归并到较大项集中，保证归并后项集中的账户具有关联性，得到归属于同一社会人的多个网络账号，从而实现短暂上网事务中频繁共现账号挖掘。

本发明方法简单、易操作，能准确发现隐藏在网络通信流中网络帐号之间的关联性，这种关联性来源于用户的上网习惯，可以有效克服上网行为关联对先验关联线索的依赖性，提高对用户在多种应用上网行为的联合审计能力，具有实际的应用价值。

附图说明

图1为本发明流程框示图。

图2为本发明的短暂上网事务数据库示意图。

图3为本发明测试验证所依托的迪普上网行为审计网络环境。

具体实施方式

以下结合附图对本发明的具体实施方式作详细说明。

由图1给出，本发明包括上网短暂事务数据库构建、频繁共现网络帐号挖掘以及频繁共现网络帐号归并部分，上网短暂事务数据库构建模块主要负责获取用户上网数据流，提取用户上网元数据，构建事务数据库D，为了尽可能地在事务中保留用户在多个社交应用的上网数据，同时缩减事务库规模，事务数据库的构建既要有上网行为的连续性，还要兼顾上网业务的独立性；频繁共现网络帐号挖掘模块从事务数据库D中挖掘出频繁项集；频繁共现网络帐号归并模块主要对频繁项集进行归并处理，以还原真实的社会实体的多个账号，具体步骤是：

1)、获取用户上网元数据：

用户上网元数据获取是后续数据分析的基础，用户上网元数据主要包括网络源IP地址、目的IP地址、上网地址、上网时间、访问网址、应用类型和上网账号，由于在线网络原始流量非常庞大，应提交网络分流设备的分流规则，以此将筛选后的数据作为后续分析的数据基础，筛选后的数据应具有相关性、连续性和多样性的特点，在选取用户上网样本时应遵循以下原则：

(1)为确保相关性，在数据获取时应收集地域相对集中的内部网关口处的网络上下行数据；

(2)为确保连续性，数据采集时间相对集中，以尽可能获得一个用户上网周期内的访问多个应用的原始数据；

(3)为确保多样性，除常用的QQ通信、Web Mail，提取多样的社交应用中的上网账号，包括购物网站、游戏、论坛、云盘；

2)构建短暂上网事务数据库

将多个上网账号同源性归并转化为数据挖掘中的频繁项集挖掘，在用户上网元数据获取的基础上，将单位时间单个上网地址上出现的网络访问行为对应事务，网络行为中出现的上网账号对应事务中的项，构建事务数据库(如图2所示)；

3)频繁共现网络帐号挖掘：

由于用户上网短暂事务数据库中事务数据量大，带来算法在执行过程中的候选项集巨大，传统的穷尽型频繁模式挖掘，Apriori算法将会受到数据处理规模的限制，因此通过对事务数据迭代取交集的方式挖掘最大频繁项集，给定事务库D，最小支持数S，最大频繁项集挖掘的方法如下：

(1)将事务库D中的事务按项的个数从大到小排序，以尽早发现最大频繁项集，为缩减事务库规模，合并事务库中重复的事务，并对事务个数计数；

(2)为减少取交集的次数，对于事务T_i，1≤i≤|D|-S+1，从i＝1开始，首先找出包含T_i中任意项的事务集合DT_i，T_j/T_j至少包括T_i中的一个项目，j＞i，T_i依次与T_j取交集，将两者的交集移入新的事务库D₁，同时剔除T_j，

(3)对于新事务库D₁中的事务T，当T是由不小于S个事务取交集而得，则将T移入最大频繁候选项集集合MFCS中，同时剔除T在D₁中的子事务；

(4)当新事务库D₁中的剩余事务个数小于最小支持数S，则结束对事务库D₁的处理，返回到上层事务库；否则，对D₁从第1步开始再进行此过程；

(5)当事务库D中剩余的事务数小于S时，即i>|D|-S+1，结束对当前事务库D的处理；

(6)对MFCS中的项集进行合并同时剔除非最大频繁项集，最后的结果即为所求的最大频繁项集集合MFS；

4)频繁共现网络帐号归并：

由于最小支持数的限制，使得MFS中最大频繁项集规模较小，而且有些项集之间存在重叠项，这些项集代表的账户簇从属于同一个社会实体，为解决这一问题，使用重叠率来量化两个项集之间的相似性，设项集X₁,X₂∈MFS，将X₁和X₂的重叠率记为：

上式中，|X₁∩X₂|表示X₁与X₂重叠项目的个数，Min(|X₁|,|X₂|)表示规模较小的项集中项目的个数，项集归并的方法是：

(1)将MFS中的最大频繁项集按项目的个数从大到小排序；

(2)遍历MFS中的每个最大频繁项集，从i＝1开始，对(1≤i≤|MFS|)，当ORate(X_i,X_j)≥minOR，i<j≤|MFS|，将X_i和X_j的并集添加到新的集合MMFS中，同时剔除X_j；

(3)对MMFS中的项集重复执行以上(1)、(2)步骤；

(4)当MMFS中任意两个项集的重叠率小于minOR时，发现在短暂上网事务中频繁共现的多个上网账号，从而实现短暂上网事务中频繁共现账号挖掘。

本发明方法简单，易操作，并经实际试用，表明方法稳定可靠，具有实际的应用价值，有关资料如下：

1)方法测试环境

本发明对校园网内用户上网行为数据进行了实际的测试和验证。迪普用户上网行为审计系统部署在校园网的进出入口处，如图3所示。迪普解析后的上网日志形成结构化的数据，保存在数据库中，所覆盖的上网应用主要包括：

邮件：包括通过Web Mail和SMTP、POP3的邮件通信数据；

社交应用：包括人人、QQ空间、BBS等主流Web社交应用；

FTP：包括基于FTP协议通信的文件上传下载应用。

提取后的结构化数据保存在MySQL数据库中。

2)数据集

以校园网迪普用户上网行为审计系统的日志为样本数据。收集周期为30天的数据，以单位时间1天为单位，从该样本数据中提取并构建短暂上网事务数据库，其中事务条目>100万，平均每条事务的项目个数为65，对应了一天内在相同IP地址上访问互联网应用的上网账号集合。由于校园网采用了动态地址分配策略，相同的IP地址并不一定是同一个用户在持续使用。

为了验证本发明所述方法应用于匿名上网账号的同源性归并效果，借助H3CiNode网络接入用户管理系统所登记的用户上网日志，对本发明所得结果进行验证。在使用H3C iNode的校园网环境下，每一个接入校园网的用户必须使用唯一的用户账号登录并访问网络，尽管该用户在多次接入网络时可能分配的IP地址不同，但该登录账号不变，H3C记录每次账户接入的时间和上网IP地址。基于此，可以通过接入账号来验证本发明所述方法的对上网账号归并结果的正确性。

3)准确率分析

通过实验分析，在最小支持度为30的情况下，得到>1万组具有短期频繁共现行为的账户簇，本小节验证本发明所述短暂上网事务中频繁共现账号的准确率，即账户簇中真实结果所占比例。假设待验证的账户簇为H，通过H3C关联的真实账户簇记为H₁，方法的准确率计算公式为：

上式中，|H|表示H中的账户簇总数，|H₁|表示H中实际的账户簇数。本实验发现的真是账户簇所占的比例高于90％，表明本方法能从原始流量中，仅基于用户上网行为，不依赖用户接入标识就能够识别出一个社会实体的多个上网账号。由此可见，本发明方法具有很强的实用性，具有实际的应用价值，经济和社会效益巨大。

Claims

1.一种短暂上网事务中频繁共现账号挖掘方法，其特征在于，包括以下步骤：

(1)用户上网数据流获取：基于网络分流技术，在网络关口处镜像网络原始数据，这些数据承载了用户访问各种社交应用的通信数据，包括上网地址、上网账号、时间、应用数据；

(3)短暂上网事务数据库构建：对步骤(2)得到的用户上网“元数据”按时间和上网地址进行汇总整理，将单位时间单个上网地址上出现的网络访问行为对应事务，网络行为中出现的上网账号对应事务中的项，构建事务数据库；形成上网短暂事务数据库，其中每个事务数据代表单位时间内单个本地地址向外访问的社交应用账号集；

(4)频繁共现网络账号挖掘：对待分析的用户上网原始流量所对应的事务数据库中的每个事务数据，利用频繁模式挖掘算法找出所有事务数据中包含的频繁项集，得到频繁项集集合；

(5)频繁共现网络账号归并：对每个频繁项集，计算项集间的重叠率，对频繁项集进行合并，将规模较小的项集归并到较大项集中，保证归并后项集中的账户具有关联性，得到归属于同一社会人的多个网络账号，从而实现短暂上网事务中频繁共现账号挖掘。

2.根据权利要求1所述的短暂上网事务中频繁共现账号挖掘方法，其特征在于，包括以下步骤：

1)、获取用户上网元数据：

2)构建短暂上网事务数据库

将多个上网账号同源性归并转化为数据挖掘中的频繁项集挖掘，在用户上网元数据获取的基础上，将单位时间单个上网地址上出现的网络访问行为对应事务，网络行为中出现的上网账号对应事务中的项，构建事务数据库；

3)频繁共现网络账号挖掘：

(4)当新事务库D₁中的剩余事务个数小于最小支持数S，则结束对事务库D₁的处理，返回到上层事务库；否则，对D₁从第(1)步开始再进行此过程；

4)频繁共现网络账号归并：

(1)将MFS中的最大频繁项集按项目的个数从大到小排序；

(2)遍历MFS中的每个最大频繁项集，从i＝1开始，对当ORate(X_i,X_j)≥minOR，i<j≤|MFS|，将X_i和X_j的并集添加到新的集合MMFS中，同时剔除X_j；

(3)对MMFS中的项集重复执行以上(1)、(2)步骤；