CN105630904A - 一种互联网账户信息挖掘的方法和装置 - Google Patents

一种互联网账户信息挖掘的方法和装置 Download PDF

Info

Publication number
CN105630904A
CN105630904A CN201510962602.XA CN201510962602A CN105630904A CN 105630904 A CN105630904 A CN 105630904A CN 201510962602 A CN201510962602 A CN 201510962602A CN 105630904 A CN105630904 A CN 105630904A
Authority
CN
China
Prior art keywords
data bag
testing data
account
internet
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510962602.XA
Other languages
English (en)
Inventor
安洋
陈雪松
代启亮
李海静
张养辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN201510962602.XA priority Critical patent/CN105630904A/zh
Publication of CN105630904A publication Critical patent/CN105630904A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种互联网账户信息挖掘的方法和装置,所述互联网账户信息挖掘的方法,包括:获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;在待测时间段内采集包含待测互联网账户信息的待测数据包,对所述待测数据包进行聚类分组;根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。本发明能快速准确的通过已知互联网账户,识别出与该互联网账户相关的其他互联网账户。在解决互联网水军、垃圾邮件分检、犯罪分子多重虚拟身份挖掘等应用中,都能起到重要作用。

Description

一种互联网账户信息挖掘的方法和装置
技术领域
本发明涉及互联网术领域,尤其涉及一种互联网账户信息挖掘的方法和装置。
背景技术
随着互联网的蓬勃发展,各类网络应用层出不穷,一个自然人可能具有多个互联网账户,通过这些互联网账户可以伪装成不同的虚拟人在互联网世界中活动。如何分辨出多个互联网账户属于同一个自然人变得越来越困难。目前,解决多重虚拟身份关联的方法大概分为两类方法:一种是应用于解决网络水军问题的主题模型方法,通过共性数据嵌入降维的方法,由已产生的网络信息内容来识别发布者的网络虚拟身份,该类方法对于社交网络类或邮件类网络信息应用效果较好,但随着客户端应用和移动互联网的发展,该方法的效率和准确度已经无法满足现有需求;另一种是主要应用统计的叶贝斯过滤器算法,该算法对网络信息本身依据既定规则提取特征值,随后通过叶贝斯算法进行聚类分析,得出相似度,但该类方法目前已经无法应用于大量的互联网信息,仅仅针对邮件类信息也不能满足现有需求。
发明内容
本发明要解决的技术问题是,提供一种互联网账户信息挖掘的方法和装置,能快速准确的通过已知互联网账户,识别出与该互联网账户相关的其他互联网账户。
本发明采用的技术方案是,所述互联网账户信息挖掘的方法,包括:
步骤1:获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
步骤2:在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组;
步骤3:根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。
进一步的,所述账户上网信息,包括:互联网账户密码;或者,
所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码;
在所述步骤2中,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组,包括:
若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中。
进一步的,所述步骤3,包括:
步骤31:根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
步骤32:依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。
进一步的,所述步骤31,包括:
步骤311:为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
步骤312:针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
步骤313:计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分。
进一步的,所述步骤311中,预设积分A<预设积分B<预设积分C。
进一步的,所述步骤312,包括:
若样本数据包中的账户上网信息为互联网账户密码,则该待测数据包的初始积分等于预设积分C;
若样本数据包中的账户上网信息为:IP地址、入网账号和互联网账户密码三种信息中的至少两种信息,则将该待测数据包中相应的所述至少两种信息的预设积分相加得到该待测数据包的初始积分。
本发明还提供一种互联网账户信息挖掘的装置,包括:
样本信息模块:用于获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
聚类分组模块:用于在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组;
账户相关模块:用于根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。
进一步的,所述账户上网信息,包括:互联网账户密码;或者,
所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码;
所述聚类分组模块,具体用于:
若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中。
进一步的,所述账户相关模块,包括:
总积分计算模块:用于根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
总积分排序模块:用于依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。
进一步的,所述总积分计算模块,包括:
聚类积分添加模块:用于为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
聚类积分计算模块:用于针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
时间点积分模块:用于计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分。
采用上述技术方案,本发明至少具有下列优点:
本发明所述的互联网账户信息挖掘的方法和装置,能够有效的解决互联网中多重虚拟身份关联的问题。依据上网人的使用习惯、物理位置和使用设备特点进行多重互联网账户关联。在解决互联网水军、垃圾邮件分检、犯罪分子多重虚拟身份挖掘等应用中,都能起到重要作用。
附图说明
图1为本发明第一实施例的互联网账户信息挖掘方法的流程图;
图2为本发明第二实施例的互联网账户信息挖掘方法的流程图;
图3为本发明第三实施例的互联网账户信息挖掘装置的组成结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明第一实施例,一种互联网账户信息挖掘的方法,如图1所示,包括以下具体步骤:
步骤S101:获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
具体的,所述时间点为产生任一数据包的时间;
所述账户上网信息,包括:互联网账户密码;或者,
所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码。
步骤S102:在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组;
具体的,所述步骤S102中,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组,包括:
若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中;同一个待测数据包可能同时被存储到一个或多个聚类组中。
步骤S103:根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度;
具体的,所述步骤S103,包括:
步骤A1:根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
进一步的,所述步骤A1,包括:
步骤A11:为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
更进一步的,所述步骤A11中,预设积分A<预设积分B<预设积分C;
步骤A12:针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
更进一步的,所述步骤A12,包括:
若样本数据包中的账户上网信息为互联网账户密码,则该待测数据包的初始积分等于预设积分C;
若样本数据包中的账户上网信息为:IP地址、入网账号和互联网账户密码三种信息中的至少两种信息,则将该待测数据包中相应的所述至少两种信息的预设积分相加得到该待测数据包的初始积分;
步骤A13:计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分;
步骤A2:依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低;
优选的,在步骤A2中,所述设定数量为一个,即显示总积分最高的那个待测数据包,该总积分最高的待测数据包中所包含的待测互联网账户与已知互联网账户的相关程度最高。
本发明第二实施例,一种互联网账户信息挖掘的方法,如图2所示,包括以下具体步骤:
步骤S201:获取包含已知互联网账户信息的样本数据包的信息;将满足配置文件基本要求的样本数据包的信息进行存储;
具体的,所述步骤S201,包括:
步骤B1:获取包含已知互联网账户信息的样本数据包的信息;
步骤B2:加载配置文件,读取配置文件中对样本数据包的基本要求;
所述配置文件要求样本数据包中必须包括特征信息;所述特征信息包括:IP地址、入网账号、互联网账户密码、时间点、协议种类和应用种类;
步骤B3:判断所述样本数据包是否满足配置文件的基本要求:
若是,则将所述样本数据包的信息进行存储;
若否,则删除所述样本数据包,用户输入新的样本数据包重新执行步骤B1。
步骤S202:在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的信息,对所述待测数据包进行聚类分组;
具体的,所述基于所述待测数据包的信息,对所述待测数据包进行聚类分组,包括:
若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中;同一个待测数据包可能同时被存储到一个或多个聚类组中。
步骤S203:为IP地址聚类组中的每个待测数据包添加4分;为入网账号聚类组中的每个待测数据包添加5分;为互联网账户密码聚类组中的每个待测数据包添加6分;将一个待测数据包在IP地址聚类组、ADSL账号聚类组和账户密码聚类组中的积分相加,得到所述待测数据包的初始积分。
步骤S204:计算待测数据包时间点与样本数据包时间点的时间间隔,根据所述时间间隔得到所述待测数据包的总积分;
具体的,所述根据所述时间间隔得到所述待测数据包的总积分,包括:
若待测数据包时间点与样本数据包时间点的时间间隔小于等于5分钟,则给所述待测数据包的初始积分加10分,得到所述待测数据包的总积分;
若待测数据包时间点与样本数据包时间点的时间间隔小于等于30分钟,则给所述待测数据包的初始积分加9分,得到所述待测数据包的总积分;
若待测数据包时间点与样本数据包时间点的时间间隔小于等于24小时,则给所述待测数据包的初始积分加8分,得到所述待测数据包的总积分;
若待测数据包时间点与样本数据包时间点的时间间隔小于等于48小时,则给所述待测数据包的初始积分加7分,得到所述待测数据包的总积分;
若待测数据包时间点与样本数据包时间点的时间间隔大于48小时,则所述待测数据包的初始分数即为总积分。
步骤S205:显示总积分最高的那个待测数据包,该总积分最高的待测数据包中所包含的待测互联网账户与已知互联网账户的相关程度最高。
本发明第三实施例,与第一实施例对应的介绍一种互联网账户信息挖掘的装置,如图3所示,包括以下组成部分:
1)样本信息模块301:用于获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
具体的,所述账户上网信息,包括:互联网账户密码;或者,
所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码;
2)聚类分组模块302:用于在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对各所述待测数据包进行聚类分组;
具体的,聚类分组模块302,具体用于:
若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中。
3)账户相关模块303:用于根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。
具体的,账户相关模块303,具体包括:
总积分计算模块:用于根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
总积分排序模块:用于依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。
进一步的,所述总积分计算模块,具体包括:
聚类积分添加模块:用于为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
聚类积分计算模块:用于针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
时间点积分模块:用于计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分。
本发明实施例中介绍的互联网账户信息挖掘的方法和装置,依据上网人的使用习惯、物理位置和使用设备特点进行多重互联网账户关联。通过入网账号,即可找到用户上网时的物理地址;通过一段时间内的IP地址就能找到用户上网时所使用的设备。本发明实施例中,能够有效的解决互联网中多重虚拟身份关联的问题,在解决互联网水军、垃圾邮件分检、犯罪分子多重虚拟身份挖掘等应用中,都能起到重要作用。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (10)

1.一种互联网账户信息挖掘的方法,其特征在于,包括:
步骤1:获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
步骤2:在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组;
步骤3:根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。
2.根据权利要求1所述的互联网账户信息挖掘的方法,其特征在于,所述账户上网信息,包括:互联网账户密码;或者,
所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码;
在所述步骤2中,基于所述待测数据包的账户上网信息,对所述待测数据包进行聚类分组,包括:
若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中。
3.根据权利要求1所述的互联网账户信息挖掘的方法,其特征在于,所述步骤3,包括:
步骤31:根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
步骤32:依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。
4.根据权利要求3所述的互联网账户信息挖掘的方法,其特征在于,所述步骤31,包括:
步骤311:为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
步骤312:针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
步骤313:计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分。
5.根据权利要求4所述的互联网账户信息挖掘的方法,其特征在于,所述步骤311中,预设积分A<预设积分B<预设积分C。
6.根据权利要求4所述的互联网账户信息挖掘的方法,其特征在于,所述步骤312,包括:
若样本数据包中的账户上网信息为互联网账户密码,则该待测数据包的初始积分等于预设积分C;
若样本数据包中的账户上网信息为:IP地址、入网账号和互联网账户密码三种信息中的至少两种信息,则将该待测数据包中相应的所述至少两种信息的预设积分相加得到该待测数据包的初始积分。
7.一种互联网账户信息挖掘的装置,其特征在于,包括:
样本信息模块:用于获取包含已知互联网账户信息的样本数据包的信息;所述样本数据包的信息包括:时间点和账户上网信息;
聚类分组模块:用于在待测时间段内采集包含待测互联网账户信息的待测数据包,基于所述待测数据包的账户上网信息,对各所述待测数据包进行聚类分组;
账户相关模块:用于根据所述待测数据包的聚类分组情况、以及所述待测数据包时间点与样本数据包时间点的时间间隔,确定出所述待测数据包中的待测互联网账户与已知互联网账户的相关程度。
8.根据权利要求7所述的互联网账户信息挖掘的装置,其特征在于,所述账户上网信息,包括:互联网账户密码;或者,所述账户上网信息,包括以下三种信息中的至少两种:IP地址、入网账号和互联网账户密码;
所述聚类分组模块,具体用于:
若待测数据包与样本数据包的IP地址相同,则把所述待测数据包存储到IP地址聚类组中;若待测数据包与样本数据包的入网账号相同,则把所述待测数据包存储到入网账号聚类组中;若待测数据包与样本数据包的互联网账户密码相同,则把所述待测数据包存储到互联网账户密码聚类组中。
9.根据权利要求7所述的互联网账户信息挖掘的装置,其特征在于,所述账户相关模块,包括:
总积分计算模块:用于根据所述待测数据包的聚类分组情况为所述待测数据包添加第一类预设积分;基于所述待测数据包时间点与样本数据包时间点的时间间隔,为所述待测数据包添加第二类预设积分;将所述第一类预设积分与所述第二类预设积分相加,得到所述待测数据包的总积分;
总积分排序模块:用于依据所述待测数据包的总积分从高到低的显示设定数量的待测数据包,待测时间段内所述待测数据包的总积分从高到低表明所述待测数据包中包含的待测互联网账户与已知互联网账户的相关程度从高到低。
10.根据权利要求9所述的互联网账户信息挖掘的装置,其特征在于,所述总积分计算模块,包括:
聚类积分添加模块:用于为IP地址聚类组中的每个待测数据包添加预设积分A;为入网账号聚类组中的每个待测数据包添加预设积分B;为互联网账户密码聚类组中的每个待测数据包添加预设积分C;
聚类积分计算模块:用于针对在待测时间段内采集的任一所述待测数据包,基于该待测数据包分别存在于IP地址聚类组、入网账号聚类组和互联网账户密码聚类组中添加的预设积分,计算得到该待测数据包的初始积分;
时间点积分模块:用于计算待测数据包时间点与样本数据包时间点的时间间隔,根据时间间隔为待测数据包添加对应的预设积分D,将待测数据包的预设积分D与初始积分相加,得到所述待测数据包的总积分。
CN201510962602.XA 2015-12-21 2015-12-21 一种互联网账户信息挖掘的方法和装置 Pending CN105630904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510962602.XA CN105630904A (zh) 2015-12-21 2015-12-21 一种互联网账户信息挖掘的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510962602.XA CN105630904A (zh) 2015-12-21 2015-12-21 一种互联网账户信息挖掘的方法和装置

Publications (1)

Publication Number Publication Date
CN105630904A true CN105630904A (zh) 2016-06-01

Family

ID=56045837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510962602.XA Pending CN105630904A (zh) 2015-12-21 2015-12-21 一种互联网账户信息挖掘的方法和装置

Country Status (1)

Country Link
CN (1) CN105630904A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095843A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 社交账号挖掘方法及装置
CN109255024A (zh) * 2017-07-12 2019-01-22 车伯乐(北京)信息科技有限公司 一种异常用户同党的搜索方法,装置,及系统
CN112182226A (zh) * 2020-10-16 2021-01-05 温州职业技术学院 一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法
CN112463577A (zh) * 2019-09-09 2021-03-09 北京达佳互联信息技术有限公司 一种用于样本数据的处理方法、装置及电子设备
CN116362737A (zh) * 2023-05-29 2023-06-30 杭州数云信息技术有限公司 账号聚类方法及装置、计算机可读存储介质、终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729474A (zh) * 2014-01-23 2014-04-16 中国科学院计算技术研究所 用于识别论坛用户马甲账号的方法和系统
CN103812872A (zh) * 2014-02-28 2014-05-21 中国科学院信息工程研究所 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
US20150057969A1 (en) * 2012-03-29 2015-02-26 Commissariat à I' énergie atomique et aux énergies alternatives Method and device for locating a magnetic object
CN104660594A (zh) * 2015-02-09 2015-05-27 中国科学院信息工程研究所 一种面向社交网络的虚拟恶意节点及其网络识别方法
CN104901847A (zh) * 2015-05-27 2015-09-09 国家计算机网络与信息安全管理中心 一种社交网络僵尸账号检测方法及装置
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150057969A1 (en) * 2012-03-29 2015-02-26 Commissariat à I' énergie atomique et aux énergies alternatives Method and device for locating a magnetic object
CN103729474A (zh) * 2014-01-23 2014-04-16 中国科学院计算技术研究所 用于识别论坛用户马甲账号的方法和系统
CN103812872A (zh) * 2014-02-28 2014-05-21 中国科学院信息工程研究所 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
CN104660594A (zh) * 2015-02-09 2015-05-27 中国科学院信息工程研究所 一种面向社交网络的虚拟恶意节点及其网络识别方法
CN104901847A (zh) * 2015-05-27 2015-09-09 国家计算机网络与信息安全管理中心 一种社交网络僵尸账号检测方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095843A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 社交账号挖掘方法及装置
CN106095843B (zh) * 2016-06-02 2018-06-08 腾讯科技(深圳)有限公司 社交账号挖掘方法及装置
CN109255024A (zh) * 2017-07-12 2019-01-22 车伯乐(北京)信息科技有限公司 一种异常用户同党的搜索方法,装置,及系统
CN112463577A (zh) * 2019-09-09 2021-03-09 北京达佳互联信息技术有限公司 一种用于样本数据的处理方法、装置及电子设备
CN112182226A (zh) * 2020-10-16 2021-01-05 温州职业技术学院 一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法
CN112182226B (zh) * 2020-10-16 2022-09-30 温州职业技术学院 一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法
CN116362737A (zh) * 2023-05-29 2023-06-30 杭州数云信息技术有限公司 账号聚类方法及装置、计算机可读存储介质、终端
CN116362737B (zh) * 2023-05-29 2023-10-13 杭州数云信息技术有限公司 账号聚类方法及装置、计算机可读存储介质、终端

Similar Documents

Publication Publication Date Title
CN105630904A (zh) 一种互联网账户信息挖掘的方法和装置
CN103023725B (zh) 一种基于网络流量分析的异常检测方法
CN104917739B (zh) 虚假账号的识别方法及装置
CN106209861B (zh) 一种基于广义杰卡德相似系数Web应用层DDoS攻击检测方法及装置
CN103580939B (zh) 一种基于账号属性的异常消息检测方法及设备
CN105491444B (zh) 一种数据识别处理方法以及装置
CN102984269B (zh) 一种点对点流量识别方法和装置
CN104573017B (zh) 识别网络水军团体的方法及系统
CN106599688A (zh) 一种基于应用类别的安卓恶意软件检测方法
CN107895010A (zh) 一种基于网络点赞检测网络水军的方法
CN106878314A (zh) 基于可信度的网络恶意行为检测方法
CN109299742A (zh) 自动发现未知网络流的方法、装置、设备及存储介质
CN103996006A (zh) 一种信息系统安全风险评估的方法和装置
CN109815406A (zh) 一种数据处理、信息推荐方法及装置
CN106790041B (zh) 一种网际协议ip信誉库生成方法及装置
CN106657160A (zh) 面向大流量基于可信度的网络恶意行为检测方法
CN107682344A (zh) 一种基于dpi数据互联网身份识别的id图谱建立方法
CN102571487A (zh) 基于多数据源分布式的僵尸网络规模测量及追踪方法
CN109858282A (zh) 一种社交网络关系数据隐私保护方法及系统
CN108399336A (zh) 一种安卓应用恶意行为的检测方法及装置
CN103324888B (zh) 基于家族样本的病毒特征自动提取方法及系统
Lu et al. An HTTP flooding detection method based on browser behavior
CN106850658A (zh) 实时在线学习的网络恶意行为检测方法
CN106572486B (zh) 一种基于机器学习的手持终端流量识别方法和系统
CN112291506B (zh) 一种视频会议场景下流数据安全漏洞溯源方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601

RJ01 Rejection of invention patent application after publication