CN105630904A

CN105630904A - 一种互联网账户信息挖掘的方法和装置

Info

Publication number: CN105630904A
Application number: CN201510962602.XA
Authority: CN
Inventors: 安洋; 陈雪松; 代启亮; 李海静; 张养辉
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-06-01

Abstract

本发明提出了一种互联网账户信息挖掘的方法和装置，所述互联网账户信息挖掘的方法，包括：获取包含已知互联网账户信息的样本数据包的信息；所述样本数据包的信息包括：时间点和账户上网信息；在待测时间段内采集包含待测互联网账户信息的待测数据包，对所述待测数据包进行聚类分组；根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔，确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。本发明能快速准确的通过已知互联网账户，识别出与该互联网账户相关的其他互联网账户。在解决互联网水军、垃圾邮件分检、犯罪分子多重虚拟身份挖掘等应用中，都能起到重要作用。

Description

一种互联网账户信息挖掘的方法和装置

技术领域

本发明涉及互联网术领域，尤其涉及一种互联网账户信息挖掘的方法和装置。

背景技术

随着互联网的蓬勃发展，各类网络应用层出不穷，一个自然人可能具有多个互联网账户，通过这些互联网账户可以伪装成不同的虚拟人在互联网世界中活动。如何分辨出多个互联网账户属于同一个自然人变得越来越困难。目前，解决多重虚拟身份关联的方法大概分为两类方法：一种是应用于解决网络水军问题的主题模型方法，通过共性数据嵌入降维的方法，由已产生的网络信息内容来识别发布者的网络虚拟身份，该类方法对于社交网络类或邮件类网络信息应用效果较好，但随着客户端应用和移动互联网的发展，该方法的效率和准确度已经无法满足现有需求；另一种是主要应用统计的叶贝斯过滤器算法，该算法对网络信息本身依据既定规则提取特征值，随后通过叶贝斯算法进行聚类分析，得出相似度，但该类方法目前已经无法应用于大量的互联网信息，仅仅针对邮件类信息也不能满足现有需求。

发明内容

本发明要解决的技术问题是，提供一种互联网账户信息挖掘的方法和装置，能快速准确的通过已知互联网账户，识别出与该互联网账户相关的其他互联网账户。

本发明采用的技术方案是，所述互联网账户信息挖掘的方法，包括：

步骤1：获取包含已知互联网账户信息的样本数据包的信息；所述样本数据包的信息包括：时间点和账户上网信息；

步骤2：在待测时间段内采集包含待测互联网账户信息的待测数据包，基于所述待测数据包的账户上网信息，对所述待测数据包进行聚类分组；

步骤3：根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔，确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。

进一步的，所述账户上网信息，包括：互联网账户密码；或者，

所述账户上网信息，包括以下三种信息中的至少两种：IP地址、入网账号和互联网账户密码；

在所述步骤2中，基于所述待测数据包的账户上网信息，对所述待测数据包进行聚类分组，包括：

若待测数据包与样本数据包的IP地址相同，则把所述待测数据包存储到IP地址聚类组中；若待测数据包与样本数据包的入网账号相同，则把所述待测数据包存储到入网账号聚类组中；若待测数据包与样本数据包的互联网账户密码相同，则把所述待测数据包存储到互联网账户密码聚类组中。

进一步的，所述步骤3，包括：

步骤31：根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分；基于所述待测数据包时间点与样本数据包时间点的时间间隔，为所述待测数据包添加第二类预设积分；将所述第一类预设积分与所述第二类预设积分相加，得到所述待测数据包的总积分；

步骤32：依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包，待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。

进一步的，所述步骤31，包括：

步骤311：为IP地址聚类组中的每个待测数据包添加预设积分A；为入网账号聚类组中的每个待测数据包添加预设积分B；为互联网账户密码聚类组中的每个待测数据包添加预设积分C；

步骤312：针对在待测时间段内采集的任一所述待测数据包，基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分，计算得到该待测数据包的初始积分；

步骤313：计算待测数据包时间点与样本数据包时间点的时间间隔，根据时间间隔为待测数据包添加对应的预设积分D，将待测数据包的预设积分D与初始积分相加，得到所述待测数据包的总积分。

进一步的，所述步骤311中，预设积分A＜预设积分B＜预设积分C。

进一步的，所述步骤312，包括：

若样本数据包中的账户上网信息为互联网账户密码，则该待测数据包的初始积分等于预设积分C；

若样本数据包中的账户上网信息为：IP地址、入网账号和互联网账户密码三种信息中的至少两种信息，则将该待测数据包中相应的所述至少两种信息的预设积分相加得到该待测数据包的初始积分。

本发明还提供一种互联网账户信息挖掘的装置，包括：

样本信息模块：用于获取包含已知互联网账户信息的样本数据包的信息；所述样本数据包的信息包括：时间点和账户上网信息；

聚类分组模块：用于在待测时间段内采集包含待测互联网账户信息的待测数据包，基于所述待测数据包的账户上网信息，对所述待测数据包进行聚类分组；

账户相关模块：用于根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔，确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。

所述聚类分组模块，具体用于：

进一步的，所述账户相关模块，包括：

总积分计算模块：用于根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分；基于所述待测数据包时间点与样本数据包时间点的时间间隔，为所述待测数据包添加第二类预设积分；将所述第一类预设积分与所述第二类预设积分相加，得到所述待测数据包的总积分；

总积分排序模块：用于依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包，待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。

进一步的，所述总积分计算模块，包括：

聚类积分添加模块：用于为IP地址聚类组中的每个待测数据包添加预设积分A；为入网账号聚类组中的每个待测数据包添加预设积分B；为互联网账户密码聚类组中的每个待测数据包添加预设积分C；

聚类积分计算模块：用于针对在待测时间段内采集的任一所述待测数据包，基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分，计算得到该待测数据包的初始积分；

时间点积分模块：用于计算待测数据包时间点与样本数据包时间点的时间间隔，根据时间间隔为待测数据包添加对应的预设积分D，将待测数据包的预设积分D与初始积分相加，得到所述待测数据包的总积分。

采用上述技术方案，本发明至少具有下列优点：

本发明所述的互联网账户信息挖掘的方法和装置，能够有效的解决互联网中多重虚拟身份关联的问题。依据上网人的使用习惯、物理位置和使用设备特点进行多重互联网账户关联。在解决互联网水军、垃圾邮件分检、犯罪分子多重虚拟身份挖掘等应用中，都能起到重要作用。

附图说明

图1为本发明第一实施例的互联网账户信息挖掘方法的流程图；

图2为本发明第二实施例的互联网账户信息挖掘方法的流程图；

图3为本发明第三实施例的互联网账户信息挖掘装置的组成结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明第一实施例，一种互联网账户信息挖掘的方法，如图1所示，包括以下具体步骤：

步骤S101：获取包含已知互联网账户信息的样本数据包的信息；所述样本数据包的信息包括：时间点和账户上网信息；

具体的，所述时间点为产生任一数据包的时间；

所述账户上网信息，包括：互联网账户密码；或者，

所述账户上网信息，包括以下三种信息中的至少两种：IP地址、入网账号和互联网账户密码。

步骤S102：在待测时间段内采集包含待测互联网账户信息的待测数据包，基于所述待测数据包的账户上网信息，对所述待测数据包进行聚类分组；

具体的，所述步骤S102中，基于所述待测数据包的账户上网信息，对所述待测数据包进行聚类分组，包括：

若待测数据包与样本数据包的IP地址相同，则把所述待测数据包存储到IP地址聚类组中；若待测数据包与样本数据包的入网账号相同，则把所述待测数据包存储到入网账号聚类组中；若待测数据包与样本数据包的互联网账户密码相同，则把所述待测数据包存储到互联网账户密码聚类组中；同一个待测数据包可能同时被存储到一个或多个聚类组中。

步骤S103：根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔，确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度；

具体的，所述步骤S103，包括：

步骤A1：根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分；基于所述待测数据包时间点与样本数据包时间点的时间间隔，为所述待测数据包添加第二类预设积分；将所述第一类预设积分与所述第二类预设积分相加，得到所述待测数据包的总积分；

进一步的，所述步骤A1，包括：

步骤A11：为IP地址聚类组中的每个待测数据包添加预设积分A；为入网账号聚类组中的每个待测数据包添加预设积分B；为互联网账户密码聚类组中的每个待测数据包添加预设积分C；

更进一步的，所述步骤A11中，预设积分A＜预设积分B＜预设积分C；

步骤A12：针对在待测时间段内采集的任一所述待测数据包，基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分，计算得到该待测数据包的初始积分；

更进一步的，所述步骤A12，包括：

若样本数据包中的账户上网信息为：IP地址、入网账号和互联网账户密码三种信息中的至少两种信息，则将该待测数据包中相应的所述至少两种信息的预设积分相加得到该待测数据包的初始积分；

步骤A13：计算待测数据包时间点与样本数据包时间点的时间间隔，根据时间间隔为待测数据包添加对应的预设积分D，将待测数据包的预设积分D与初始积分相加，得到所述待测数据包的总积分；

步骤A2：依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包，待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低；

优选的，在步骤A2中，所述设定数量为一个，即显示总积分最高的那个待测数据包，该总积分最高的待测数据包中所包含的待测互联网账户与已知互联网账户的相关程度最高。

本发明第二实施例，一种互联网账户信息挖掘的方法，如图2所示，包括以下具体步骤：

步骤S201：获取包含已知互联网账户信息的样本数据包的信息；将满足配置文件基本要求的样本数据包的信息进行存储；

具体的，所述步骤S201，包括：

步骤B1：获取包含已知互联网账户信息的样本数据包的信息；

步骤B2：加载配置文件，读取配置文件中对样本数据包的基本要求；

所述配置文件要求样本数据包中必须包括特征信息；所述特征信息包括：IP地址、入网账号、互联网账户密码、时间点、协议种类和应用种类；

步骤B3：判断所述样本数据包是否满足配置文件的基本要求：

若是，则将所述样本数据包的信息进行存储；

若否，则删除所述样本数据包，用户输入新的样本数据包重新执行步骤B1。

步骤S202：在待测时间段内采集包含待测互联网账户信息的待测数据包，基于所述待测数据包的信息，对所述待测数据包进行聚类分组；

具体的，所述基于所述待测数据包的信息，对所述待测数据包进行聚类分组，包括：

步骤S203：为IP地址聚类组中的每个待测数据包添加4分；为入网账号聚类组中的每个待测数据包添加5分；为互联网账户密码聚类组中的每个待测数据包添加6分；将一个待测数据包在IP地址聚类组、ADSL账号聚类组和账户密码聚类组中的积分相加，得到所述待测数据包的初始积分。

步骤S204：计算待测数据包时间点与样本数据包时间点的时间间隔，根据所述时间间隔得到所述待测数据包的总积分；

具体的，所述根据所述时间间隔得到所述待测数据包的总积分，包括：

若待测数据包时间点与样本数据包时间点的时间间隔小于等于5分钟，则给所述待测数据包的初始积分加10分，得到所述待测数据包的总积分；

若待测数据包时间点与样本数据包时间点的时间间隔小于等于30分钟，则给所述待测数据包的初始积分加9分，得到所述待测数据包的总积分；

若待测数据包时间点与样本数据包时间点的时间间隔小于等于24小时，则给所述待测数据包的初始积分加8分，得到所述待测数据包的总积分；

若待测数据包时间点与样本数据包时间点的时间间隔小于等于48小时，则给所述待测数据包的初始积分加7分，得到所述待测数据包的总积分；

若待测数据包时间点与样本数据包时间点的时间间隔大于48小时，则所述待测数据包的初始分数即为总积分。

步骤S205：显示总积分最高的那个待测数据包，该总积分最高的待测数据包中所包含的待测互联网账户与已知互联网账户的相关程度最高。

本发明第三实施例，与第一实施例对应的介绍一种互联网账户信息挖掘的装置，如图3所示，包括以下组成部分：

1)样本信息模块301：用于获取包含已知互联网账户信息的样本数据包的信息；所述样本数据包的信息包括：时间点和账户上网信息；

具体的，所述账户上网信息，包括：互联网账户密码；或者，

2)聚类分组模块302：用于在待测时间段内采集包含待测互联网账户信息的待测数据包，基于所述待测数据包的账户上网信息，对各所述待测数据包进行聚类分组；

具体的，聚类分组模块302，具体用于：

3)账户相关模块303：用于根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔，确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。

具体的，账户相关模块303，具体包括：

进一步的，所述总积分计算模块，具体包括：

本发明实施例中介绍的互联网账户信息挖掘的方法和装置，依据上网人的使用习惯、物理位置和使用设备特点进行多重互联网账户关联。通过入网账号，即可找到用户上网时的物理地址；通过一段时间内的IP地址就能找到用户上网时所使用的设备。本发明实施例中，能够有效的解决互联网中多重虚拟身份关联的问题，在解决互联网水军、垃圾邮件分检、犯罪分子多重虚拟身份挖掘等应用中，都能起到重要作用。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种互联网账户信息挖掘的方法，其特征在于，包括：

2.根据权利要求1所述的互联网账户信息挖掘的方法，其特征在于，所述账户上网信息，包括：互联网账户密码；或者，

3.根据权利要求1所述的互联网账户信息挖掘的方法，其特征在于，所述步骤3，包括：

4.根据权利要求3所述的互联网账户信息挖掘的方法，其特征在于，所述步骤31，包括：

5.根据权利要求4所述的互联网账户信息挖掘的方法，其特征在于，所述步骤311中，预设积分A＜预设积分B＜预设积分C。

6.根据权利要求4所述的互联网账户信息挖掘的方法，其特征在于，所述步骤312，包括：

7.一种互联网账户信息挖掘的装置，其特征在于，包括：

聚类分组模块：用于在待测时间段内采集包含待测互联网账户信息的待测数据包，基于所述待测数据包的账户上网信息，对各所述待测数据包进行聚类分组；

8.根据权利要求7所述的互联网账户信息挖掘的装置，其特征在于，所述账户上网信息，包括：互联网账户密码；或者，所述账户上网信息，包括以下三种信息中的至少两种：IP地址、入网账号和互联网账户密码；

所述聚类分组模块，具体用于：

9.根据权利要求7所述的互联网账户信息挖掘的装置，其特征在于，所述账户相关模块，包括：

10.根据权利要求9所述的互联网账户信息挖掘的装置，其特征在于，所述总积分计算模块，包括：