CN109447177A - 账号聚类方法、装置和服务器 - Google Patents

账号聚类方法、装置和服务器 Download PDF

Info

Publication number
CN109447177A
CN109447177A CN201811342712.6A CN201811342712A CN109447177A CN 109447177 A CN109447177 A CN 109447177A CN 201811342712 A CN201811342712 A CN 201811342712A CN 109447177 A CN109447177 A CN 109447177A
Authority
CN
China
Prior art keywords
address
account information
account
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811342712.6A
Other languages
English (en)
Other versions
CN109447177B (zh
Inventor
任京徽
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN201811342712.6A priority Critical patent/CN109447177B/zh
Publication of CN109447177A publication Critical patent/CN109447177A/zh
Application granted granted Critical
Publication of CN109447177B publication Critical patent/CN109447177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/09Mapping addresses
    • H04L61/25Mapping addresses of the same type
    • H04L61/2503Translation of Internet protocol [IP] addresses

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种账号聚类方法、装置和服务器;其中,该方法包括:获取预设网络范围内的流量数据;从流量数据中提取账号信息;根据账号信息的IP地址,对账号信息进行整合处理;根据账号信息的IP地址的地址类型,对账号信息进行归类;地址类型包括静态IP地址、动态IP地址和NAT转换的IP地址;如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。本发明可以将网络中的账号信息、IP地址和用户整体对应,从而实现多账号信息定位用户的功能,有利于网络数据的监控和数据的源头定位。

Description

账号聚类方法、装置和服务器
技术领域
本发明涉及数据监控技术领域,尤其是涉及一种账号聚类方法、装置和服务器。
背景技术
相关技术中,将网络社交类似的用户进行聚类,具体通过用户行为分析,聚类相同类型的用户,该聚类的结果是一个用户集;另一种方式为不同应用间相同用户账号分析,具体从账号本身入手,通过账号命名规则聚类用户,聚类的结果是一个用户对应多个账号。但这些方式中,难以实现用户定位的功能,因而难以用于网络数据监控。
发明内容
有鉴于此,本发明的目的在于提供一种账号聚类方法、装置和服务器,以实现多账号信息定位用户的功能,有利于网络数据的监控和数据的源头定位。
第一方面,本发明实施例提供了一种账号聚类方法,包括:获取预设网络范围内的流量数据;从流量数据中提取账号信息;根据账号信息的IP地址,对账号信息进行整合处理;根据账号信息的IP地址的地址类型,对账号信息进行归类;地址类型包括静态IP地址、动态IP地址和NAT转换的IP地址;如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。
在本发明较佳的实施例中,上述获取预设网络范围内的流量数据的步骤,包括:通过数据抓包的方式,从预设网络范围对应的总网接口获取预设网络范围内的流量数据;总网接口包括预设网络范围的内网总口或外网总口;内网总口与外网总口之间设置有预设网络范围与外部网络通信的交换机或适配器。
在本发明较佳的实施例中,上述根据账号信息的IP地址,对账号信息进行整合处理的步骤,包括:将同一IP地址的账号信息整合为一组,得到多组账号信息;滤除每组账号信息中的干扰数据,并对每组账号信息进行预处理,将处理后的账号信息保存。
在本发明较佳的实施例中,上述账号信息的IP地址的地址类型,通过下述方式确定:根据预设时间内,账号信息对应的IP地址的变化频率,或者IP地址对应的账号信息的变化频率,确定账号信息的IP地址的地址类型。
在本发明较佳的实施例中,上述根据账号信息的IP地址的地址类型,对账号信息进行归类的步骤,包括:如果账号信息的IP地址的地址类型为静态IP地址,按照账号信息的IP地址归档账号信息;如果账号信息的IP地址的地址类型为动态IP地址,根据时间划分账号信息,将划分后的账号信息归档。
在本发明较佳的实施例中,上述通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果的步骤,包括:根据地址类型为NAT转换的IP地址,构建邻接矩阵;邻接矩阵中,每个账号信息作为一个顶点信息;各个顶点信息之间的相邻关系通过每个账号信息的字符、登录时间、退出时间、用户代理信息建立;根据邻接矩阵中各个顶点的相邻关系,滤除分立的账号信息;对滤除后的账号信息进行谱聚类处理,得到拉普拉斯矩阵;对拉普拉斯矩阵进行特征值分解和Kmeans聚类处理,得到按照用户划分的账户聚类结果。
第二方面,本发明实施例提供了一种账号聚类装置,包括:数据获取模块,用于获取预设网络范围内的流量数据;信息提取模块,用于从流量数据中提取账号信息;信息整合模块,用于根据账号信息的IP地址,对账号信息进行整合处理;信息归类模块,用于根据账号信息的IP地址的地址类型,对账号信息进行归类;地址类型包括静态IP地址、动态IP地址和NAT转换的IP地址;信息聚类模块,用于如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。
在本发明较佳的实施例中,上述数据获取模块,用于:通过数据抓包的方式,从所述预设网络范围对应的总网接口获取所述预设网络范围内的流量数据;所述总网接口包括所述预设网络范围的内网总口或外网总口;所述内网总口与所述外网总口之间设置有所述预设网络范围与外部网络通信的交换机或适配器。
在本发明较佳的实施例中,上述信息整合模块,用于:将同一IP地址的账号信息整合为一组,得到多组账号信息;滤除每组账号信息中的干扰数据,并对每组账号信息进行预处理,将处理后的账号信息保存。
第三方面,本发明实施例提供了一种服务器,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述账号聚类方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种账号聚类方法、装置和服务器,首先从预设网络范围内的流量数据中提取账号信息;再根据该账号信息的IP地址,对账号信息进行整合处理;进而根据账号信息的IP地址的地址类型,对账号信息进行归类;如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。该方式可以将网络中的账号信息、IP地址和用户整体对应,从而实现多账号信息定位用户的功能,有利于网络数据的监控和数据的源头定位。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种账号聚类方法的流程图;
图2为本发明实施例提供的另一种账号聚类方法的流程图;
图3为本发明实施例提供的通过检测器或数据抓取装置对总网接口的数据进行数据抓包的示意图;
图4为本发明实施例提供的一种账号聚类装置的结构示意图;
图5为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有的账号聚类方式的用户定位功能较差,因而难以用于网络数据监控的问题,本发明实施例提供了一种账号聚类方法、装置和服务器;该技术可以应用于网警监察、舆情分析、数据监控等场景中;为便于对本实施例进行理解,首先对本发明实施例所公开的一种账号聚类方法进行详细介绍。
参见图1所示的一种账号聚类方法的流程图;该方法包括:
步骤S102,获取预设网络范围内的流量数据;
具体可以通过局域网的总网接口获取该局域网的网络范围内的流量数据;如在该总网接口设置一个数据备份设备或程序,以将经过该总接口的流量数据进行备份,从而获取到该网络范围内的流量数据。
步骤S104,从流量数据中提取账号信息;
例如,可以预先保存各种通讯软件、社交软件、网站的用于标识账号信息的关键字;如果流量数据中存在保存的关键字,即可确定此处为账号信息。该账号信息中可以包含账户名、密码、以及绑定的手机号、邮箱等内容。
步骤S106,根据账号信息的IP地址,对账号信息进行整合处理;
该整合处理可以包括对账号信息进行清洗,如将缺失或乱码的账号信息剔除;将同一IP地址下的账号信息进行归纳,得到每个IP地址对应的账号信息的组合,从而得到IP地址与账号信息的对应关系。
步骤S108,根据账号信息的IP地址的地址类型,对账号信息进行归类;地址类型包括静态IP地址、动态IP地址和NAT(Network Address Translation,网络地址转换)转换的IP地址;
在得到IP地址与账号信息的对应关系后,该步骤继续对IP地址进行进一步的归类;其中,静态IP地址是指给每一台计算机分配的固定的IP地址;动态IP地址是指计算机上网时,网络随机为该计算机分配的IP地址;而NAT转换的IP地址是指整体机构内的多台计算机公用一个合法的IP地址,机构内的计算机上网时,将该计算机在机构内的地址转换为合法IP地址。
步骤S110,如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。
对于静态IP地址、动态IP地址分类后的账号信息进行归类即可保存,而对于NAT转换的IP地址,该IP地址可能对应多台计算机即多个用户,因而需要对该IP地址对应的账号信息进行进一步的分类;具体可以采用上述步骤聚类的方式,识别得到该NAT转换的IP地址中,每个用户对应的账号信息,从而实现用户、账号信息和IP地址的定位关系。
本发明实施例提供的一种账号聚类方法,首先从预设网络范围内的流量数据中提取账号信息;再根据该账号信息的IP地址,对账号信息进行整合处理;进而根据账号信息的IP地址的地址类型,对账号信息进行归类;如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。该方式可以将网络中的账号信息、IP地址和用户整体对应,从而实现多账号信息定位用户的功能,有利于网络数据的监控和数据的源头定位。
参见图2所示的另一种账号聚类方法的流程图;该方法在上述实施例所述方法的基础上实现,该方法包括:
步骤S202,通过数据抓包的方式,从预设网络范围对应的总网接口获取预设网络范围内的流量数据;总网接口包括预设网络范围的内网总口或外网总口;内网总口与外网总口之间设置有预设网络范围与外部网络通信的交换机或适配器。
具体可以通过检测器或数据抓取装置对总网接口的数据进行数据抓包;如图3所示,预设网络范围也可以称为内部网络;检测器或数据抓取装置可以从内网总口抓取数据,也可以从外网总口抓取数据;检测器或数据抓取装置抓取到数据后,可以将数据发送至服务器,该服务器对数据进行处理,以实现账号聚类。
通常,在内网总口获取的数据中,IP地址是内网的真实IP地址,可能存在少量NAT转换的IP地址;而外网总口的的数据中,所有的IP地址都是NAT转换的IP地址,因此所有的数据都需要进行谱聚类处理并归档。在大多情况下通过内网总口获取的数据得到的账户聚类结果,优于通过外网总口获取的数据得到的账户聚类结果。
步骤S204,从流量数据中提取账号信息;
步骤S206,将同一IP地址的账号信息整合为一组,得到多组账号信息;即每组账户对应一个IP地址。
步骤S208,滤除每组账号信息中的干扰数据,并对每组账号信息进行预处理,将处理后的账号信息保存。
该干扰数据可以为被识别为账号信息的数据,即非账号信息;预处理的过程可以为对账号信息进行清洗,剔除缺失、损坏的数据。上述账号信息同样可以保存至多种数据库中,存储载体具体可以为缓存、文件存储、数据库存储、硬盘存储等。
步骤S210,判断账号信息的IP地址的地址类型;如果是静态IP地址,执行步骤S212;如果是动态IP地址,执行步骤S214;如果是NAT转换的IP地址,执行步骤S216;
在实际实现时,根据预设时间内,账号信息对应的IP地址的变化频率,或者IP地址对应的账号信息的变化频率,确定账号信息的IP地址的地址类型。具体可以通过下述方式1和方式2实现:
方式1,包括下述步骤11-步骤15:
步骤11,设定变化次数阈值N和变化间隔阈值T;
步骤12,计算同一账号信息对应的,IP地址的变化次数m,如果m小于N,确定该账号信息对应的IP都为静态IP地址;如果m大于或等于N,执行步骤13;
步骤13,同一账号信息对应的IP地址的平均变化间隔t;如果t大于T,确定该账号信息对应的IP地址都为静态IP地址;如果t小于或等于T,确定该账号信息对应的IP地址都为动态IP地址;
步骤14,所有账号信息对应的IP地址会存在重复,将重复的IP地址合并;其中,动态IP地址的优先级高于静态IP地址,即如果一个IP地址在两个账号信息下分别是动态IP地址和静态IP地址,则该IP地址确定为动态IP地址;
步骤15,汇总得到所有IP地址的类型。
方式2,包括下述步骤21-步骤26:
步骤21,设定同类账号阈值Y;
步骤22,获取账号信息的数量m;
步骤23,转化账号信息,按应用类型,拆分成name:{account}的Map<String,Set<String>>集合map;
步骤24,获取map的size s;
步骤25,判断m-s是否大于Y;如果是,确定IP地址是NAT转换的IP地址;如果否,确定IP地址不是NAT转换的IP地址;
步骤26,汇总得到所有IP地址的类型。
上述根据账号和IP的对应关系,在限定时间内判断变化次数和频率;通过双向判断,既有根据IP判断账号数量,也有根据账号判断IP变化,汇总得到各IP地址的类型。
步骤S212,按照账号信息的IP地址归档账号信息;执行步骤S224;
由于静态地址所对应的计算机相对固定,因此,无需再对静态IP地址的账号信息进一步处理,对静态IP地址的账号信息按照对应的IP地址进行归档保存即可。
步骤S214,根据时间划分账号信息,将划分后的账号信息归档。执行步骤S224。
由于动态IP地址随着时间的变化,由不同的计算机使用,因而,根据动态IP地址的分配时间,划分得到各个分配时间内,动态IP地址与上网计算机的对应关系。
步骤S216,根据地址类型为NAT转换的IP地址,构建邻接矩阵;该邻接矩阵中,每个账号信息作为一个顶点信息;各个顶点信息之间的相邻关系通过每个账号信息的字符、登录时间、退出时间、用户代理信息建立;
上述NAT转换的IP地址也可以为PAT(port-address-translation,端口地址转换)转换的IP地址。通常,一个NAT转换的IP地址中通常对应有多个用户的账号信息,为了对该IP地址中的多个账号信息基于用户进行分类,可以将该IP地址对应的多个账号信息作为邻接矩阵的顶点信息,再将各个账号信息的登录时间、退出时间、用户代理等参数作为各个顶点信息的相邻关系,从而分析得到各个账号信息之间的关联关系。其中,用户代理信息也可以称为user-agent,如浏览器、搜索引擎等。
步骤S218,根据邻接矩阵中各个顶点的相邻关系,滤除分立的账号信息;
通过上述方式建立各个顶点信息的相邻关系后,如果某一顶点与其他顶点没有任何相邻关系,说明该顶点对应的账号信息与其他信息没有任何关系,为分立的账号信息,该账号信息无法实现聚类,为了保证聚类效果和精度,将该分立的账号信息滤除。
步骤S220,对滤除后的账号信息进行谱聚类处理,得到拉普拉斯矩阵;
步骤S222,对拉普拉斯矩阵进行特征值分解和Kmeans聚类处理,得到按照用户划分的账户聚类结果。
在其他实现方式中,还可以通过相似度矩阵建立各账号信息的关联关系,在进行特征值分解和Kmeans聚类处理,得到按照用户划分的账户聚类结果。其中,特征值分解的过程还可以通过PCA(Principal Component Analysis,主成分分析)分解和SVD(SingularValue Decomposition,奇异值分解)分解实现。
步骤S224,保存上述各地址类型的IP地址对应的账号信息。
上述账号聚类方法,可以将网络中的账号信息、IP地址和用户整体对应,从而实现多账号信息定位用户的功能,有利于网络数据的监控和数据的源头定位。
进一步地,上述账号聚类方法,还可以通过下述方式实现:
步骤1,收集监控网络的流量数据,获取所有网络活动相关的账号信息;
步骤2,根据收集的数据的IP做归纳整理,将相同IP下的账号数据整合,过滤干扰数据;
步骤3,对账号数据做预处理,并存储到redis数据库中;
步骤4,判断IP类型,分为静态IP,动态IP,PAT转换IP,静态IP直接归档账号,动态IP根据时间动态划分账号档案,PAT转换IP继续步骤5;
步骤5,构建邻接矩阵,将账号数据的账号命名,登录退出时间规律,以及账号关联的user-agent作为特征,构建矢量模型,全局类比获取邻接举证;
步骤6,谱聚类数据过滤处理,将无法聚类的数据筛选出来,提高聚类效率和精度;
步骤7,谱聚类,获取拉普拉斯矩阵,将拉普拉斯举证特征值分解,获取特征向量举证,kmeans聚类,获取聚类簇,集对应账号聚类结果;
步骤8,用户档案构建。
上述账号聚类方法,该技术从实际需求出发,监控企业单位网络环境,将所有网络下的账号数据和IP数据整合对应,对非NAT转换的网络直接建立用户档案,对NAT转换的网络使用相似度矩阵模型构建和谱聚类技术实现聚类和区分,大概率将同一个用户的账号识别整合,有效的提高了数据监控的源头定位技术。
上述账号聚类方法,可以通过java语言开发,其实现方式包括但不局限于c、c++、Matlab、python、go、Scala等语言。
对应于上述方法实施例,参见图4所示的一种账号聚类装置的结构示意图;该装置包括:
数据获取模块30,用于获取预设网络范围内的流量数据;
信息提取模块31,用于从流量数据中提取账号信息;
信息整合模块32,用于根据账号信息的IP地址,对账号信息进行整合处理;
信息归类模块33,用于根据账号信息的IP地址的地址类型,对账号信息进行归类;地址类型包括静态IP地址、动态IP地址和NAT转换的IP地址;
信息聚类模块34,用于如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。
本发明实施例提供的一种账号聚类装置,首先从预设网络范围内的流量数据中提取账号信息;再根据该账号信息的IP地址,对账号信息进行整合处理;进而根据账号信息的IP地址的地址类型,对账号信息进行归类;如果账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。该方式可以将网络中的账号信息、IP地址和用户整体对应,从而实现多账号信息定位用户的功能,有利于网络数据的监控和数据的源头定位。
进一步地,上述数据获取模块,用于:通过数据抓包的方式,从预设网络范围对应的总网接口获取预设网络范围内的流量数据;总网接口包括预设网络范围的内网总口或外网总口;内网总口与外网总口之间设置有预设网络范围与外部网络通信的交换机或适配器。
进一步地,上述信息整合模块,用于:将同一IP地址的账号信息整合为一组,得到多组账号信息;滤除每组账号信息中的干扰数据,并对每组账号信息进行预处理,将处理后的账号信息保存。
进一步地,上述信息归类模块,用于:如果账号信息的IP地址的地址类型为静态IP地址,按照账号信息的IP地址归档账号信息;如果账号信息的IP地址的地址类型为动态IP地址,根据时间划分账号信息,将划分后的账号信息归档。
上述账号聚类方法和装置,将账号数据(即上述账号信息)转化成数据模型,将账号信息构成的字符,账户登录退出的时间规律以及账户行为过程中的浏览器信息组成矢量化的数据,构建相似度矩阵;在账号聚合模型中引入谱聚类的方法,并在聚类前对矩阵数据做过滤优化,去除不宜聚合数据和游离数据,减少聚类干扰,提高聚类准确性。该方式可以对局域网的所有IP做监控检测,将IP划分为是否是NAT转换下的IP。
本发明实施例还提供了一种服务器,用于运行上述账号聚类方法;参见图5所示,该服务器包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述账号聚类方法。
进一步地,图5所示的服务器还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例提供的服务器,与上述实施例提供的账号聚类方法和装置具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的账号聚类方法、装置和服务器的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种账号聚类方法,其特征在于,包括:
获取预设网络范围内的流量数据;
从所述流量数据中提取账号信息;
根据所述账号信息的IP地址,对所述账号信息进行整合处理;
根据所述账号信息的IP地址的地址类型,对所述账号信息进行归类;所述地址类型包括静态IP地址、动态IP地址和NAT转换的IP地址;
如果所述账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取预设网络范围内的流量数据的步骤,包括:
通过数据抓包的方式,从所述预设网络范围对应的总网接口获取所述预设网络范围内的流量数据;所述总网接口包括所述预设网络范围的内网总口或外网总口;所述内网总口与所述外网总口之间设置有所述预设网络范围与外部网络通信的交换机或适配器。
3.根据权利要求1所述的方法,其特征在于,所述根据所述账号信息的IP地址,对所述账号信息进行整合处理的步骤,包括:
将同一IP地址的账号信息整合为一组,得到多组账号信息;
滤除每组所述账号信息中的干扰数据,并对每组所述账号信息进行预处理,将处理后的所述账号信息保存。
4.根据权利要求1所述的方法,其特征在于,所述账号信息的IP地址的地址类型,通过下述方式确定:
根据预设时间内,账号信息对应的IP地址的变化频率,或者IP地址对应的账号信息的变化频率,确定所述账号信息的IP地址的地址类型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述账号信息的IP地址的地址类型,对所述账号信息进行归类的步骤,包括:
如果所述账号信息的IP地址的地址类型为静态IP地址,按照所述账号信息的IP地址归档所述账号信息;
如果所述账号信息的IP地址的地址类型为动态IP地址,根据时间划分所述账号信息,将划分后的所述账号信息归档。
6.根据权利要求1所述的方法,其特征在于,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果的步骤,包括:
根据地址类型为NAT转换的IP地址,构建邻接矩阵;所述邻接矩阵中,每个账号信息作为一个顶点信息;各个所述顶点信息之间的相邻关系通过每个所述账号信息的字符、登录时间、退出时间、用户代理信息建立;
根据所述邻接矩阵中各个顶点的相邻关系,滤除分立的账号信息;
对滤除后的账号信息进行谱聚类处理,得到拉普拉斯矩阵;
对所述拉普拉斯矩阵进行特征值分解和Kmeans聚类处理,得到按照用户划分的账户聚类结果。
7.一种账号聚类装置,其特征在于,包括:
数据获取模块,用于获取预设网络范围内的流量数据;
信息提取模块,用于从所述流量数据中提取账号信息;
信息整合模块,用于根据所述账号信息的IP地址,对所述账号信息进行整合处理;
信息归类模块,用于根据所述账号信息的IP地址的地址类型,对所述账号信息进行归类;所述地址类型包括静态IP地址、动态IP地址和NAT转换的IP地址;
信息聚类模块,用于如果所述账号信息的IP地址的地址类型为NAT转换的IP地址,通过预设的聚类算法对地址类型为NAT转换的IP地址的账号信息进行聚类处理,得到聚类结果。
8.根据权利要求7所述的装置,其特征在于,所述数据获取模块,用于:
通过数据抓包的方式,从所述预设网络范围对应的总网接口获取所述预设网络范围内的流量数据;所述总网接口包括所述预设网络范围的内网总口或外网总口;所述内网总口与所述外网总口之间设置有所述预设网络范围与外部网络通信的交换机或适配器。
9.根据权利要求7所述的装置,其特征在于,所述信息整合模块,用于:
将同一IP地址的账号信息整合为一组,得到多组账号信息;
滤除每组所述账号信息中的干扰数据,并对每组所述账号信息进行预处理,将处理后的所述账号信息保存。
10.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至5任一项所述的方法。
CN201811342712.6A 2018-11-12 2018-11-12 账号聚类方法、装置和服务器 Active CN109447177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811342712.6A CN109447177B (zh) 2018-11-12 2018-11-12 账号聚类方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811342712.6A CN109447177B (zh) 2018-11-12 2018-11-12 账号聚类方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN109447177A true CN109447177A (zh) 2019-03-08
CN109447177B CN109447177B (zh) 2020-12-18

Family

ID=65552116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811342712.6A Active CN109447177B (zh) 2018-11-12 2018-11-12 账号聚类方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN109447177B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035087A (zh) * 2019-04-24 2019-07-19 全知科技(杭州)有限责任公司 一种从流量还原账号信息的方法、装置、设备及存储介质
CN116362737A (zh) * 2023-05-29 2023-06-30 杭州数云信息技术有限公司 账号聚类方法及装置、计算机可读存储介质、终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102714632A (zh) * 2012-02-10 2012-10-03 华为技术有限公司 端到端覆盖网中转方法和系统
CN104994178A (zh) * 2015-05-12 2015-10-21 广东睿江科技有限公司 一种网络地址转换方法及装置
CN105897777A (zh) * 2016-06-28 2016-08-24 合肥酷睿网络科技有限公司 一种基于网络流量特征的 nat 识别方法
CN105991778A (zh) * 2015-01-30 2016-10-05 北京秒针信息咨询有限公司 一种确定ip地址归属地的方法和装置
CN107395635A (zh) * 2017-08-25 2017-11-24 中国联合网络通信集团有限公司 一种定位有线端用户位置的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102714632A (zh) * 2012-02-10 2012-10-03 华为技术有限公司 端到端覆盖网中转方法和系统
CN105991778A (zh) * 2015-01-30 2016-10-05 北京秒针信息咨询有限公司 一种确定ip地址归属地的方法和装置
CN104994178A (zh) * 2015-05-12 2015-10-21 广东睿江科技有限公司 一种网络地址转换方法及装置
CN105897777A (zh) * 2016-06-28 2016-08-24 合肥酷睿网络科技有限公司 一种基于网络流量特征的 nat 识别方法
CN107395635A (zh) * 2017-08-25 2017-11-24 中国联合网络通信集团有限公司 一种定位有线端用户位置的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035087A (zh) * 2019-04-24 2019-07-19 全知科技(杭州)有限责任公司 一种从流量还原账号信息的方法、装置、设备及存储介质
CN110035087B (zh) * 2019-04-24 2021-03-26 全知科技(杭州)有限责任公司 一种从流量还原账号信息的方法、装置、设备及存储介质
CN116362737A (zh) * 2023-05-29 2023-06-30 杭州数云信息技术有限公司 账号聚类方法及装置、计算机可读存储介质、终端
CN116362737B (zh) * 2023-05-29 2023-10-13 杭州数云信息技术有限公司 账号聚类方法及装置、计算机可读存储介质、终端

Also Published As

Publication number Publication date
CN109447177B (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN111614690B (zh) 一种异常行为检测方法及装置
CN109033200B (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN102110122B (zh) 一种建立样本图片索引表和图片过滤、搜索方法及装置
CN109284380A (zh) 基于大数据分析的非法用户识别方法及装置、电子设备
CN104537341B (zh) 人脸图片信息获取方法和装置
CN106846082B (zh) 基于硬件信息的旅游冷启动用户产品推荐系统及方法
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN106446124B (zh) 一种基于网络关系图的网站分类方法
CN109492604A (zh) 人脸模型特征统计分析系统
CN107368856A (zh) 恶意软件的聚类方法及装置、计算机装置及可读存储介质
CN106778851B (zh) 基于手机取证数据的社交关系预测系统及其方法
CN114692593B (zh) 一种网络信息安全监测预警方法
CN117971606B (zh) 基于ElasticSearch的日志管理系统及方法
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN109447177A (zh) 账号聚类方法、装置和服务器
CN112488716A (zh) 一种异常事件检测系统
CN115858504A (zh) 物联网平台的多维数据融合管理系统、方法及存储介质
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
CN106776958A (zh) 基于关键路径的违法网站识别系统及其方法
CN104484651A (zh) 人像动态对比方法及系统
CN106096060A (zh) 海洋网络安全风险防御系统
CN105677888A (zh) 一种基于用户时间碎片的业务偏好识别方法
CN110677269A (zh) 通信用户关系的确定方法、装置和计算机可读存储介质
CN112559480A (zh) 一种并行计算场景下分布式数据集合计算方法和系统
CN108287831A (zh) 一种url分类方法和系统、数据处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant