CN108199878A

CN108199878A - 高性能ip网络中个人标识信息识别系统及方法

Info

Publication number: CN108199878A
Application number: CN201711474953.1A
Authority: CN
Inventors: 刘翼; 嵩天
Original assignee: Beijing Institute of Technology BIT; Yanan University
Current assignee: Beijing Institute of Technology BIT; Yanan University
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22
Anticipated expiration: 2037-12-29
Also published as: CN108199878B

Abstract

本发明涉及高性能IP网络中个人标识信息识别系统及方法，属于网络信息安全及网络个人隐私保护技术领域。网络个人标识信息识别系统包括特征提取模块、数据过滤与整形模块、算法执行模块和优化模块；其不需人工干预；网络个人标识信息识别方法，包括步骤1：IP网络收集到的流量以PCAP格式输入到网络个人标识信息识别系统；步骤2：提取网络特征字段得到五维数据组；步骤3：对五维数据组进行过滤与整形；步骤4：建立用户行为树模型，计算函数VF与UVF，后进行两次检测，输出PII‑DK与PII‑VALUE列表；步骤5：优化模块进行校验和扩散；步骤6：输出PII‑DK列表。本发明提出的系统和方法，具有良好的兼容性和扩展性。

Description

高性能IP网络中个人标识信息识别系统及方法

技术领域

本发明涉及高性能IP网络中个人标识信息识别系统及方法，属于网络信息与安全以及网络个人隐私保护技术领域。

背景技术

首先，移动互联网的发展逐渐改变着人们的生活方式。人们可以随时随地的通过互联网中种类繁多的应用程序获得各种方便快捷的网络服务。同时，为了高质量的提供这些网络服务，应用服务商(ASPs)通常会直接或间接地通过应用程序将各种类型的用户数据收集到云端。尤其是利用嵌入到移动终端的，类似GPS、摄像头和加速器等各种传感器，移动应用程序(APPs)会产生更多种类的用户个人标识信息(PII)。应用服务商使用个人标识信息不仅能够区分、锁定和跟踪用户，进行市场分析和预测，为用户提供更为精准的服务，还能够精细地刻画用户的网络行为活动。

与此同时，网络运营商与本地的管理员也希望得到这些个人标识信息，为用户提供更为精准地流量计量资费服务，更为全面的市场需求分析，以及更为合理的网络架构和安全服务。一般情况下，运营商的高带宽网络链路会产生海量的数据，从这些海量数据中准确和快速地发现用户个人标识信息是巨大的挑战。

国内论文和专利中没有相关技术，已有的技术虽然都在其应用场景中具有较好的效果，然而，在网络运营商的高性能、高带宽的IP网络的场景下，还没有有效的方法准确高效的发现和跟踪个人标识信息。本发明的目的是致力于解决上述技术的缺陷，提出一种运营商网络中个人标识信息识别系统。

发明内容

本发明的目的在于提高个人标识信息识别的准确性；不需要获取系统更高权限或安装附加的软硬件，提高兼容性和扩展性；全面收集各种类个人标识信息，提出高效可行的算法，克服高性能网络中海量数据的计算开销较大的问题，提出了高性能IP网络中个人标识信息识别系统及方法。

本发明高性能IP网络中个人标识信息识别系统及方法，包括网络个人标识信息识别系统和网络个人标识信息识别方法；

其中，网络个人标识信息识别系统，简称系统，包括特征提取模块、数据过滤与整形模块、算法执行模块和优化模块；

网络个人标识信息识别系统的工作过程不需要人工干预，只需输入数据即可，各模块按照顺序依次处理输入数据，直至输出网络个人标识信息；

其中，优化模块包括校验单元和扩展单元；

网络个人标识信息识别系统中的各模块的连接关系是：

系统各模块之间是串联关系，具体为：特征提取模块与数据过滤与整形模块相连；数据过滤与整形模块与算法执行模块相连；算法执行模块和优化模块相连；

网络个人标识信息识别系统中各模块的功能是：

特征提取模块从网络流量中提取出特征；数据过滤和整形模块负责清洗原始数据，移除杂乱的数据；算法执行模块使用网络个人标识信息识别方法计算出网络个人标识信息；优化模块中的校验单元负责纠正错判的结果，而扩展单元负责补充收集漏掉的真值；

网络个人标识信息识别方法，通过以下步骤实现：

步骤1：IP网络收集到的流量以PCAP格式输入到网络个人标识信息识别系统；

步骤2：网络个人标识信息识别系统中的特征提取模块提取网络特征字段，得到一个五维的数据组；具体为：

步骤2.1:特征提取模块判断数据包是否为HTTP请求字段，并根据判断结果决定是否基于正则表达式提取特征信息，具体为：

2.1A如果数据包是HTTP请求字段，则采用正则表达式提取特征信息；

其中，特征信息包括数据包源MAC地址、HOST字段和GET字段的信息分别记录到USER,DOMAIN,GET字段；

2.1B如果数据包不是HTTP请求字段，则跳至步骤2；

步骤2.2：采用“？”符号分割GET字段，取GET字段分割后的最后一部分作为预处理数据，并根据预处理数据是否为空，决定是否记录，具体为：

2.2A如果预处理数据为空，则忽略不记录；

2.2B如果预处理数据为非空，则记录此预处理数据；

步骤2.3：采用“&”符号将步骤2.2得到的预处理数据分割为KEY-VALUE数据组，并根据数据组是否为空，决定是否记录，具体为：

2.3A如果数据组为空，则忽略不记录；

2.3B如果数据组为非空，则记录此数据组；

步骤2.4：采用“＝”符号将步骤2.3得到的KEY-VALUE数据组分开为KEY字段和VALUE字段，如果数据组为空或不能被“＝”分割，则忽略不记录，否则记录此KEY字段和VALUE字段；

至此，经过步骤2.1到步骤2.4，数据包中的GET字段被分割为若干个KEY 字段和VALUE字段；

步骤2.5：将经过步骤2.1到步骤2.4输出的数据包中相同的字段聚合在一起，得到一个五维的数据组{USER,HOST,KEY,VALUE,FREQUENCY}；

其中，USER和HOST对应步骤2.1A中的源MAC地址和DOMAIN字段； KEY和VALUE为步骤2.4输出的KEY字段和VALUE字段；由USER、DOMAIN、 KEY、VALUE组成一条记录条目，FREQUENCY对应相同记录条目出现的频率；

步骤3：数据过滤与整形模块对步骤2输出的五维的数据组进行过滤与整形，具体为：

步骤3.1：按照域名和IP地址的命名规则过滤掉不符合规则的数据组；

步骤3.2：删除数据组中VALUE值少于K个字符的值；

其中，K的取值范围为自然数；

步骤3.3：删除数据组中相同DOMAIN和KEY中少于X条记录的样本；

其中，X的取值范围为自然数；

步骤3.4：将数据组中所有符号的URL编码转化为UTF-8编码；

步骤3.5：将数据组中所有的大写字母转换为小写字母；

步骤3.6：移除数据组中的默认值和干扰值；

步骤3.7：利用最长前缀匹配算法聚合相同DOMAIN与VALUE字段内的值，即将相同的DOMAIN和KEY数据中，如果VALUE字段的字符串包含在其他 VALUE字符串内，则将它们合并为长度较长的VALUE；

步骤3.8：将DOMAIN字段中所有的三级以上的域名按照三级域名聚合，去除一、二级域名；

步骤3.9：将DOMAIN字段中所有IP地址去掉端口号，并按照相同C类地址的网络号聚合；

步骤4：算法执行模块建立用户行为树模型，利用用户行为树的性质计算出函数VF与函数UVF，然后采用函数VF与函数UVF的计算结果进行两次检测，最后输出PII-DK与PII-VALUE两个列表，具体为：

步骤4.1：用相同的DOMAIN-KEY的数据建立用户行为树模型；

其中，用户行为树模型的根为DOMAIN-KEY、第二层为USER、第三层为 VALUE，叶子节点为FREQUENCY；

步骤4.2：计算步骤4.1用户行为树模型中每个用户子树下节点的数量，若节点数量为1且FREQUENCY大于1，则函数VF的值为1，否则VF＝0；

步骤4.3：满足VF＝1的数据继续计算各用户节点的孩子节点VALUE是否相同，如果与其他VALUE都不同则UFV＝1，否则UFV＝0；

步骤4.4：满足VF＝UFV＝1的DOMAIN-KEY组成PII-DK列表，并将列表中具有相同DOMAIN-KEY的VALUE字段的值构成PII-VALUE列表；

步骤5：优化模块进行校验和扩散，具体为：

步骤5.1：计算步骤4.4中PII-VALUE列表中的每个VALUE值对应的用户数，若只对应1个用户，则通过校验，否则校验失败，将包含有校验失败的VALUE 值的DOMIAN-KEY从PII-DK中删除；

步骤5.2：根据PII-VALUE列表中的值重新计算数据集中不在PII-DK列表内DOMAIN-KEY，且包括步骤2过滤掉的DOMAIN-KEY；

步骤5.3：将步骤5.2计算得到的DOMAIN-KEY加入到PII-DK列表内；

步骤6：输出PII-DK列表；

至此，经过步骤1到步骤6，完成了高性能IP网络中个人标识信息识别方法。

有益效果

高性能IP网络中个人标识信息识别系统及方法，与现有此前的系统与方法相比，具有如下有益效果：

1.方法面向网络运营商角度，观察和解决相关问题，在网络中部署要求低，覆盖面积大，可操作性强；

2.方法具有良好的计算性能，采用并行计算过程降低了计算复杂度，适用于运营商级别高性能网络；

3.方法不但按照网络的特点具有自身调整的能力，而且较高的准确率和覆盖率；

4.方法能够收集各类型应用服务商的个人标识信息，而不关心个人标识信息的类型，具有良好的兼容性；

5.方法具有良好的扩展性，能够及时发现新的个人标识信息。

附图说明

图1是本发明网络个人标识信息识别系统及实施例1中系统结构示意图；

图2是本发明网络个人标识信息识别方法实施例3、4、5中用户行为树结构图；

图3是本发明网络个人标识信息识别方法的实施例4、5中计算识别树模型图；

图4是本发明网络个人标识信息识别方法及实施例6中优化模块的校验与扩散过程事宜图。

具体实施方式

个人标识信息其实是区分对象(用户)的一个或一组特征信息。网络流量中深藏着各种类型的个人标识信息，发明的方法能够在海量的数据中准确地、快速地收集个人标识信息。下面结合附图和实施例对本发明做进一步说明和详细描述。

实施例1

本实施例详细阐述了本发明一种运营商网络中个人标识信息识别系统的整体系统结构图。从图1可见，网络流量首先以PCAP格式输入到系统；其次，利用时间戳和IP地址将数据包与认证系统中的用户(对象)关联；再次，系统在特征提取过程中利用正则表达式将网络流量中的HTTP数据包的HOST字段与GET 字段提取出来，并按照步骤2中的方法提取特征后存储起来成一条记录(详见实施例2)；然后，系统统计(statistics)相同记录并聚合，相同记录出现的频率为FREQUENCY；最终得到一个五维字段的数据集{USER,DOMAIN,KEY,VALUE, FREQUENCY}。系统在此使用MAC地址代表用户或对象，使用HTTP GET字段中的信息作为特征，但用户或对象的表示方法，特征的类型和形式并不限于此方法。

数据过滤和整形过程中根据步骤3中的方法进行清洗默认和干扰数据，整形大小写字母和URL字符编码等过程，最后输出“干净”的数据。

计算过程中，根据用户的访问网络资源的行为，将前面得到的“干净”数据建立用户行为树，并利用识别树模型计算出相应的结果，具体请见实例3。

在优化过程中，系统使用校验和扩散优化计算结果。校验过程验证计算过程的结果，删除掉误报的数据；扩散过程按照校验后的结果重新收集个人标识信息，召回因数据过滤、整形等原因个人标识信息被漏报的情况。

最终，系统输出一个由DOMAIN-KEY组成的列表，在列表中的所有DOMAIN-KEY 中传输的VALUE都为个人标识信息。

实施例2

本实施例详细阐述了本发明一种运营商网络中个人标识信息识别系统的特征提取过程。特征提取位置图表示实际网络流量中的一个HTTP数据包头部字段。根据步骤2的提示，方法提取HOST字段中的字符串“mcgi.v.qq.com”写入数据集DOMAIN字段，提取“app_id”、“imsi”与“imei”等13个字符串写入数据KEY字段，并将“248”、“460023918121329”与“868129022933673”等13 个字符串写入到数据集对应的VALUE字段，最终在数据集中写入13条记录，详见下面的特征提取结果表。

特征提取位置图表

特征提取结果表

DOMAIN	KEY	VALUE
			mcgi.v.qq.com	cmd	51
mcgi.v.qq.com	app_version_name	6.5.3
			mcgi.v.qq.com	app_version_build	0
mcgi.v.qq.com	so_name	p2p
			mcgi.v.qq.com	so_ver	V0.0.0.0
mcgi.v.qq.com	app_id	248
			mcgi.v.qq.com	sdk_version	V4.1.248.1730
mcgi.v.qq.com	imei	868129022933673
			mcgi.v.qq.com	imsi	460023918121329
mcgi.v.qq.com	mac	ec:df:3a:f3:50:66
			mcgi.v.qq.com	numofcpucore	8
mcgi.v.qq.com	cpufreq	1363
			mcgi.v.qq.com	null	cpua

实施例3

本实施例详细阐述了本发明一种运营商网络中个人标识信息识别系统的计算过程中建立用户行为树的过程。从图2可见，根据用户访问网络资源的行为，利用前面过程得到的五维数据构建用户行为树。五维数据的五个字段能够较为准确地表示用户访问网络资源的行为，用户或对象USER访问网络资源DOMAIN 时，在位置KEY传输了FREQUENCY次的VALUE。根据用户访问行为，方法将访问相同网络资源的用户聚合起来构建成为用户行为树。用户行为树固定为4层， DOMAIN-KEY同为用户行为树根；第二层是USER层，表示具有相同DOMAIN和KEY 的USER数据；第三层是VALUE层，表示引用用户传输的数据VALUE；第四层是对应VALUE出现的频率。

实施例4

本实施例详细阐述了本发明一种运营商网络中个人标识信息识别系统的计算过程中识别树模型的VF检测过程。从图3可见，首先计算出函数VF的值，用于做VF检测。图2中VF虚框中可见，假设相同DK为根的用户行为树第二层的用户数为M，每个以USER为根的子树的孩子节点的数量为n，其出现的频率为f，可以利用函数VF计算出每个用户USER为根的子树的孩子节点的变化，则有公式

公式中可见唯有f>1且n＝1的条件成立时，VF＝1；在其他条件下VF＝0。VF等于 1时表示任一USER含有的孩子节点VALUE唯一且频率大于1。如此，每个USER 都会计算得到一个VF，形成一个以0和1组成的列表

SVF＝{vf₁,vf₂,...,vf_M},vf_M＝0 or 1

则当列表SVF中所有元素VF都是1的情况下可以表示成为

简化后为公式

则有当上述公式成立时，VF检测结果为1，也就是说列表内出现1的概率大于等于系数α与用户总数M的积；否则VF检测结果为0。

实施例5

本实施例详细阐述了本发明一种运营商网络中个人标识信息识别系统的计算过程中识别树模型的UVF检测过程。由图3可见，通过VF检测的用户行为树数据被输入到UVF检测中继续进行计算。同样从图2中UVF虚框可见，经过 VF检测的过滤，通过验证的任一用户行为树的孩子节点USER都对应唯一的 VALUE。假设用户行为树种USER的节点总数为M，其VALUE在所有VALUE 层节点中出现的频率为m，则有

公式中只有当m＝1且M>1时，UVF＝1；在其他条件下UVF都为0。UVF＝1表示该 USER含有的VALUE与其他USER含有的VALUE都不同。如此，USER层的每个节点都会计算得到对应的UVF，形成一个以0和1组成的列表

SUVF＝{uvf₁,uvf₂,...,uvf_M},uvf_M＝0 or 1

则当列表SUVF中所有元素UVF都是1的情况下可以表示成为

简化后得公式

当上述公式成立通过UVF检测，检测结果为1；否则检测结果为0。

实施例6

本实施例详细阐述了本发明一种运营商网络中个人标识信息识别系统的优化阶段。通过VF和UVF的检测，会产生一个PII-DK列表。列表中每一条记录都是由DOMAIN和KEY组成。从图4可见，校验过程搜索每个DOMAIN-KEY内对应的所有VALUE，并在整个数据集内计算每个VALUE关联的USER数(图4CHECKSUM 虚框部分所示)，若USER数唯一，则校验成功；否则校验失败，将该DOMAIN-KEY 从PII-DK列表中移除。数据经过校验后，将PII-DK列表内的所有DOMAIN-KEY 记录包含的VALUE提取出来，建立一个PII-VALUE列表，然后使用这些VALUE值重新计算数据过滤和整形前的数据集，并且DOMAIN-KEY不在PII-DK列表内。扩散过程找出新的DOMAIN-KEY加入到PII-DK列表当中，直到PII-DK没有更新为止。最终得到一个PII-DK列表，它由所有传输个人标识信息的VALUE的 DOMAIN-KEY组成。

以上所述为本发明的关键位置、较佳的实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.网络个人标识信息识别系统，简称系统，其特征在于：包括特征提取模块、数据过滤与整形模块、算法执行模块和优化模块；

其中，优化模块包括校验单元和扩展单元；

网络个人标识信息识别系统中的各模块的连接关系是：

网络个人标识信息识别系统中各模块的功能是：

特征提取模块从网络流量中提取出特征；数据过滤和整形模块负责清洗原始数据，移除杂乱的数据；算法执行模块使用网络个人标识信息识别方法计算出网络个人标识信息；优化模块中的校验单元负责纠正错判的结果，而扩展单元负责补充收集漏掉的真值。

2.网络个人标识信息识别方法，其特征在于：通过以下步骤实现：

步骤2：网络个人标识信息识别系统中的特征提取模块提取网络特征字段，得到一个五维的数据组；

步骤3：数据过滤与整形模块对步骤2输出的五维的数据组进行过滤与整形；

步骤4：算法执行模块建立用户行为树模型，利用用户行为树的性质计算出函数VF与函数UVF，然后采用函数VF与函数UVF的计算结果进行两次检测，最后输出PII-DK与PII-VALUE两个列表；

步骤5：优化模块进行校验和扩散；

步骤6：输出PII-DK列表；

3.根据权利要求2所述的网络个人标识信息识别方法，其特征在于：步骤2，具体为：

2.1B如果数据包不是HTTP请求字段，则跳至步骤2；

2.2A如果预处理数据为空，则忽略不记录；

2.2B如果预处理数据为非空，则记录此预处理数据；

2.3A如果数据组为空，则忽略不记录；

2.3B如果数据组为非空，则记录此数据组；

至此，经过步骤2.1到步骤2.4，数据包中的GET字段被分割为若干个KEY字段和VALUE字段；

其中，USER和HOST对应步骤2.1A中的源MAC地址和DOMAIN字段；KEY和VALUE为步骤2.4输出的KEY字段和VALUE字段；由USER、DOMAIN、KEY、VALUE组成一条记录条目，FREQUENCY对应相同记录条目出现的频率。

4.根据权利要求2所述的网络个人标识信息识别方法，其特征在于：步骤3，具体为：

步骤3.2：删除数据组中VALUE值少于K个字符的值；

其中，K的取值范围为自然数；

步骤3.3：删除数据组中相同DOMAIN和KEY中少于X条记录的样本；

其中，X的取值范围为自然数；

步骤3.4：将数据组中所有符号的URL编码转化为UTF-8编码；

步骤3.5：将数据组中所有的大写字母转换为小写字母；

步骤3.6：移除数据组中的默认值和干扰值；

步骤3.7：利用最长前缀匹配算法聚合相同DOMAIN与VALUE字段内的值，即将相同的DOMAIN和KEY数据中，如果VALUE字段的字符串包含在其他VALUE字符串内，则将它们合并为长度较长的VALUE；

步骤3.9：将DOMAIN字段中所有IP地址去掉端口号，并按照相同C类地址的网络号聚合。

5.根据权利要求2所述的网络个人标识信息识别方法，其特征在于：步骤4，具体为：

步骤4.1：用相同的DOMAIN-KEY的数据建立用户行为树模型；

其中，用户行为树模型的根为DOMAIN-KEY、第二层为USER、第三层为VALUE，叶子节点为FREQUENCY；

步骤4.4：满足VF＝UFV＝1的DOMAIN-KEY组成PII-DK列表，并将列表中具有相同DOMAIN-KEY的VALUE字段的值构成PII-VALUE列表。

6.根据权利要求2所述的网络个人标识信息识别方法，其特征在于：步骤5，具体为：

步骤5.1：计算步骤4.4中PII-VALUE列表中的每个VALUE值对应的用户数，若只对应1个用户，则通过校验，否则校验失败，将包含有校验失败的VALUE值的DOMIAN-KEY从PII-DK中删除；

步骤5.3：将步骤5.2计算得到的DOMAIN-KEY加入到PII-DK列表内。