CN103812961A

CN103812961A - 识别指定类别ip地址的方法及设备、防御方法及系统

Info

Publication number: CN103812961A
Application number: CN201310535856.4A
Authority: CN
Inventors: 王艳辉; 王素梅
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2013-11-01
Filing date: 2013-11-01
Publication date: 2014-05-21
Anticipated expiration: 2033-11-01
Also published as: CN103812961B; US10033694B2; US20160269361A1; WO2015062345A1

Abstract

本发明公开了一种识别指定类别IP地址的方法及设备、防御方法及系统，其中，识别指定类别IP地址的方法包括：收集若干IP地址的行为记录数据；从所述收集的行为记录数据中提取预处理数据，所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息；对所述提取到的预处理数据进行分析，获得用户使用所述IP地址的行为时间分布数据；至少根据用户使用所述IP地址的行为时间分布数据，识别出指定类别IP地址。通过该方法，利用用户IP地址的时间分布数据来识别用户IP是否属于指定类别IP地址，能够更加精准地定位出某种类别的IP地址，提高了IP地址的识别的准确率。

Description

识别指定类别IP地址的方法及设备、防御方法及系统

技术领域

本发明涉及互联网技术领域，具体涉及一种识别指定类别IP地址的方法及设备，以及一种提高用户终端安全防御的方法及系统。

背景技术

计算机的使用在各领域得到了广泛的普及，无论是公司用户还是个人用户，越来越依赖于计算机的使用。对于使用计算机的各个用户群而言，为了更准确地为指定类别的用户群提供更好的服务，需要准确地判断出一个用户IP地址（Internet Protocol Address，网际协议地址）是否是指定类别IP地址。目前，解决这个问题的主要方式有：

依靠用户IP对应的用户终端数的数目来识别此用户IP是否为指定类别IP的地址，例如，要识别某用户IP是否为公司IP地址，可以设置一个阈值5，用户IP对应的用户终端数的个数大于5，即认为是公司IP。这种单纯依靠单个IP对应的用户终端数直接识别该IP是否为公司IP是非常不准确的，因为有一些代理IP每个单IP对应的用户终端数超过几万甚至几十万，还有一些住宅小区的出口IP可能只有一个，但是其对应的用户终端数却很多，但这些IP均不是公司IP地址。所以单纯使用单个IP对应的用户终端数来判断用户IP是否为公司IP地址的方法，是非常不准确的。

因此，迫切需要本领域技术人员解决的技术问题就在于，如何能够快速、准确有效地判断出一个用户IP是否为某种类别的IP地址的方法。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别指定类别IP地址的方法及设备，以及一种用于提高用户终端安全防御的方法及系统。

依据本发明的一个方面，提供了一种识别指定类别IP地址的方法，包括：

收集若干IP地址的行为记录数据；

从所述收集的行为记录数据中提取预处理数据，所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息；

对所述提取到的预处理数据进行处理分析，获得用户使用所述IP地址的行为时间分布数据；

至少根据用户使用所述IP地址的行为时间分布数据，识别出指定类别IP地址。

可选地，所述至少根据用户使用所述IP地址的行为时间分布数据，识别出指定类别IP地址包括：

基于每个IP地址的行为时间分布数据，对多个IP地址采用一种或多种聚类组合的方式进行聚类分析，识别出指定类别IP地址。

可选地，所述基于每个IP地址的行为时间分布数据，对多个IP地址采用多种聚类组合的方式进行聚类包括：

从所述收集的若干IP地址中，选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点，基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据，收集到的多个IP地址采用第一聚类方式进行聚类，识别出各类别的IP地址；

对识别出的指定类别IP地址，采用第二聚类方式进行抽样聚类分析，获得该指定类别的数据分布特点；

根据所述采用第二聚类方式获得的数据分布特点，修正第一聚类方式的初始节点，并采用修正后的初始节点，对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类，进一步净化指定类别IP地址。

可选地，所述第一聚类方式为Kmeans，第二聚类方式为DBScan。

可选地，所述提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识，所述对提取到的预处理数据进行处理分析包括：

统计每个IP地址对应的用户终端数量；

对用户终端数量大于预置阈值的每个IP地址的预处理数据，根据行为时间不同划分为多个维度，并统计在不同时间段用户使用每个IP地址的用户终端数量；

对所述在不同时间段使用每个IP地址的用户终端数量进行归一化处理，获得用户使用所述IP地址的行为时间分布数据。

可选地，所述指定类别IP地址，具有特定的行为时间上的分布特点。

根据本发明的另一方面，提供了一种识别指定类别IP地址的设备，包括：

数据收集单元，用于收集若干IP地址的行为记录数据；

数据提取单元，用于从所述收集的行为记录数据中提取预处理数据，所述提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息；

数据处理单元，用于对所述提取到的预处理数据进行处理分析，获得用户使用所述IP地址的行为时间分布数据；

地址识别单元，用于至少根据用户使用所述IP地址的行为时间分布数据，识别出指定类别IP地址。

可选地，所述地址识别单元包括：

聚类分析单元，用于基于每个IP地址的行为时间分布数据，对多个IP地址采用一种或多种聚类组合的方式进行聚类分析，识别出指定类别IP地址。

可选地，所述聚类分析单元包括：

第一聚类分析单元，用于从所述收集的若干IP地址中，选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点，基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据，收集到的多个IP地址采用第一聚类方式进行聚类，识别出各类别的IP地址；

第二聚类分析单元，用于对识别出的指定类别IP地址，采用第二聚类方式进行抽样聚类分析，获得该指定类别的数据分布特点；

第三聚类分析单元，用于根据所述采用第二聚类方式获得的数据分布特点，修正第一聚类方式的初始节点，并采用修正后的初始节点，对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类，进一步净化指定类别IP地址。

可选地，所述第一聚类方式为Kmeans，所述第二聚类方式为DBScan。

可选地，所述数据提取单元提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识，所述数据处理单元包括：

第一统计单元，用于统计每个IP地址对应的用户终端数量；

第二统计单元，用于对用户终端数量大于预置阈值的每个IP地址的预处理数据，根据行为时间不同划分为多个维度，并统计在不同时间段用户使用每个IP地址的用户终端数量；

归一化处理单元，用于对所述在不同时间段使用每个IP地址的用户终端数量进行归一化处理，获得用户使用所述IP地址的行为时间分布数据。

根据本发明的又一方面，提供了一种用于提高用户终端安全防御的方法，包括，预先通过所述识别指定类别IP地址的方法，识别出指定类别IP地址；

监控各用户终端的信息安全状况以及IP地址；

当在属于所述指定类别IP地址对应的用户终端中发现恶意程序时，提高安全防御级别或进行特殊安全防御处理。

根据本发明的再一方面，提供了一种用于提高用户终端安全防御的系统，包括，所述识别指定类别IP地址的设备，所述系统还包括：

监控单元，用于监控各用户终端的信息安全状况以及IP地址；

安全防御单元，用于当所述监控单元在所述识别设备识别出的指定类别IP地址对应的用户终端中发现恶意程序时，提高安全防御级别或进行特殊安全防御处理。

根据本发明提供的一种识别指定类别IP地址的方法及设备，首先通过对用户IP行为记录数据的收集分析处理，得到用户使用用户IP地址的行为时间分布数据，最后根据获得的用户IP地址的行为时间分布数据，识别出指定类别IP地址。本发明利用用户IP地址的时间分布数据来识别用户IP是否指定类别IP地址，从而不必单纯地依靠单个IP对应的用户终端数量来识别IP地址的类别，能够更加精准地定位出某种类别的IP地址，提高了IP地址的识别的准确率。

另外，本发明还提供了一种用于提高用户终端安全防御的方法及系统，首先通过本发明提供的识别指定类别IP地址的方法及系统，识别出指定类别IP地址。由于在实际应用中，比较关注属于某一类别的IP地址的用户群的安全状况，此时可以监控各用户终端的安全信息状况以及用户终端的IP地址，当发现属于上述识别出的指定类别IP地址的用户终端中存在恶意程序时，由于恶意程序对用户终端的安全性会造成威胁，因此需要提高此用户终端的安全防御级别或进行特殊的安全防御处理，以提高用户终端的安全防御能力，由此实现了有针对性地提高某一类用户群终端的安全防御能力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种识别指定类别IP地址的方法流程图；

图2示出了根据本发明一个实施例的一种识别指定类别IP地址的系统示意图；

图3示出了根据本发明一个实施例的一种用于提高用户终端安全防御的方法流程图；

图4示出了根据本发明一个实施例的一种用于提高用户终端安全防御的系统示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参见图1，图1示出了根据本发明一个实施例的一种识别指定类别IP地址的方法流程图，下面根据图1对本发明提供的方法进行描述。本发明提供的一种识别指定类别IP地址的方法包括以下步骤：

S101：收集若干IP地址的行为记录数据。

具体的，主要是通过记录用户IP使用的行为日志，来获取所要收集的数据，一般的，用户的行为日志主要包括用户使用的历史记录，主要包括搜索历史、点击历史、购买历史和浏览数据历史等。在本发明的一个实施例中，主要是记录用户IP使用安全软件、安全软件主界面、杀毒软件、浏览器这四款产品的行为日志获取数据，在本实施例中，之所以采用这四款产品，主要是因为这四款产品基本上涵盖了所有用户，覆盖面非常大，通过用户IP使用这四款产品的行为日志得到的数据也比较全面。当然，也可以通过其他途径获取IP地址的行为记录数据，例如用户IP对应的终端启动计算机的行为记录，使用音乐播放器或视屏播放器等的行为记录，都可以作为数据来源。

S102：从收集的行为记录数据中提取预处理数据，该提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息。

在一个完整的信息系统里面，日志系统是一个非常重要的功能组成部分。它可以记录下系统所产生的所有行为，并按照某种规范表达出来。在本发明的实施例中，主要选取了用户IP使用安全软件、打开安全软件主界面、杀毒软件、浏览器所产生的行为日志数据作为分析对象。在对用户IP的行为日志进行数据提取时，主要是提取使用上述四款产品的用户IP的地址信息以及产生行为的时间信息，即用户IP使用哪款产品的时间。另外，还可以提取用户IP使用这四款产品的产品应用标识，即用户IP使用了哪款产品，应用标识可以是应用的名称，也可以是应用所在的地址，甚至可以先给上述几款产品编号，按照产品对应的编号识别是哪款产品。当然，也可以不提取用户IP使用这四款产品的产品应用标识，因为本发明的目的主要是根据用户IP的行为时间分布数据来识别用户IP是否指定类别IP地址，所以最主要的是要提取用户IP的地址信息以及此IP地址产生行为的时间信息，至于产品的应用标识是可选的，但本发明的一个实施例中希望探究一下用户IP使用不同产品对最后识别IP地址结果的影响，因此也提取了用户IP使用哪款产品的产品应用标识。

在实际应用中，上述提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识，用户终端标识是用以唯一标识一台用户终端的信息，具体实现形式都多种。例如，用户终端标识可以根据用户终端的网卡Mac地址以及安装在此用户终端上的某个软件的软件序列号来获得，而用户终端上的软件序列号可以使用具体的算法来分配，对用户终端唯一标识，具体使用算法如何进行分配软件序列号，通过现有技术来实现，在此不再重复说明。为了方便后面的描述，把上述用户终端标识暂且自定义为mid，提取每个IP地址对应的用户终端数量以及用户终端标识mid主要是为后面对数据的归一化处理做准备，对数据的归一化处理主要是将用户使用IP地址的用户终端mid总数除以此IP地址对应的用户终端mid的总数。其中，每个IP地址对应的用户终端数量以及用户IP产生行为的用户终端mid总数，可以通过用户终端标识mid来统计，即对于每个用户IP，有多少终端在使用。也可以根据上述记录的产品的应用标识，统计用户IP使用哪款产品的mid总数，当然，前面已经说明产品的应用标识是可选地，那么此处的统计用户IP使用哪款产品的mid总数也是可选的。

S103：对提取到的预处理数据进行处理分析，获得用户使用IP地址的行为时间分布数据。

在具体实现过程中，本步骤的主要目的是对上述步骤S102提取的预处理数据，通过一定的处理分析，获得用户使用所述IP地址的行为时间分布数据，再采用适当的方法来识别IP是否指定类别IP地址。此处的指定类别可以是公司、网吧、学校或其它的公共场所等，在本发明提供的一实施例中，指定类别是指公司，即以公司为例，来说明本发明所采用的方法。

首先，对步骤S102中提取的预处理数据做进一步处理：根据用户终端标识mid，统计每个IP地址对应的用户终端数量，即每个IP地址所对应的mid数，然后根据上述统计的每个IP地址对应的用户终端数量，依靠单个IP对应的用户终端数的多少来判断出个人家庭电脑。一般公司电脑或公共场所电脑（比如网吧）同一个IP会对应多个mid数，在具体的实施过程中，可以根据实际经验数据设置一个阈值，比如4，同一个IP对应的mid数大于4的，可以认为是公司电脑或公共场所的电脑；同一个IP对应的mid数小于或等于4的，可以认为是个人家庭电脑。在对提取的预处理数据进行处理分析的过程中，通过这种方法，把数据中的家庭电脑IP找出来，并将这些数据剔除，只留下同一个IP对应的mid数大于4的数据，减少了后续需要处理的数据量。

当然，也可以不进行这一步的处理，直接对提取的预处理数据根据行为时间的不同划分为多个维度，并统计在不同时间段用户使用每个IP地址的终端数量。因为后续是要进行IP地址识别的，识别IP地址属于哪一类别，因此可以在后续的识别过程中将这些用户终端数量小于预置阈值的IP地址识别出来。此处首先进行这一步处理，主要是因为提取的预处理数据量比较大，将用户终端数量小于阈值的IP地址识别出来，就减少了后面需要处理的数据量，减轻了后面数据处理的负担。

由于一般公司电脑在工作时间（周一到周五每天08:00-19:00）使用的比较多，在周一到周五的非工作时间和周末使用得比较少；而网吧电脑或公共场所电脑在工作时间使用得相对比较少，在非工作时间和周末使用得相对比较多。因此，对用户终端数量大于预置阈值的每个IP地址的数据，根据用户IP产生行为的时间，将上述数据划分为多个维度，在此处即为多个时间段，并统计在上述不同时间段用户使用IP地址的终端数量。在本发明的一实施例中，将用户IP产生行为的时间主要分为周一到周五的工作时间段，即周一到周五每天08:00-19:00；周六到周日每天08:00-19:00；周一到周五的非工作时间段，即周一到周五每天不在08:00-19:00；周六到周日每天不在08:00-19:00；周一到周日每天20:00-22:00。本发明一实施例中，同时将用户IP产生的行为时间划分为周一到周日的不在08:00-19:00时间段与周一到周日在20:00-22:00的时间段，主要是将范围较大的时间段（不在08:00-19:00）与相对比较小的时间段（在20:00-22:00）同时考虑进去，提高识别用户IP是否为公司IP地址的结果的准确度。最后记录每个用户IP在上述这些时间段使用前述几款产品的mid总数。

另外，一般公司电脑和家用电脑打开安全软件主界面的概率比较大，而网吧电脑或公共场所电脑打开安全软件主界面的概率相对比较小。因此根据用户IP使用的产品的产品应用标识，又对用户IP使用的产品进行了划分，由于在本发明的实施例中，选取的产品是安全软件、安全软件主界面、杀毒软件和浏览器，因此划分的几个维度分别是每个用户IP使用安全软件的mid数、打开安全软件主界面的mid数、使用杀毒软件的mid数和使用浏览器的mid数。

上述步骤S103的过程均是通过计算机来完成的，由于需要处理的数据比较大，因此需要选择一个能对大数据进行快速、准确处理的运行环境，例如hadoop系统能够对大量数据进行分布式处理，对大数据能够快速、良好地运行，因此本发明一实施例处理数据是在hadoop运行环境下进行的。通过上述处理过程，将数据处理成如下表1的格式：

表1

IP地址
	mid数
周一在08:00-19:00这个时间段内的mid数
	周二在08:00-19:00这个时间段内的mid数
周三在08:00-19:00这个时间段内的mid数
	周四在08:00-19:00这个时间段内的mid数
周五在08:00-19:00这个时间段内的mid数
	周六在08:00-19:00这个时间段内的mid数
周日在08:00-19:00这个时间段内的mid数
	周一不在08:00-19:00这个时间段内的mid数
周二不在08:00-19:00这个时间段内的mid数
	周三不在08:00-19:00这个时间段内的mid数
周四不在08:00-19:00这个时间段内的mid数
	周五不在08:00-19:00这个时间段内的mid数
周六不在08:00-19:00这个时间段内的mid数
	周日不在08:00-19:00这个时间段内的mid数
周一在20：00-22:00这个时间段内的mid数
	周二在20：00-22:00这个时间段内的mid数
周三在20：00-22:00这个时间段内的mid数
	周四在20：00-22:00这个时间段内的mid数
周五在20：00-22:00这个时间段内的mid数

周六在20：00-22:00这个时间段内的mid数
	周日在20：00-22:00这个时间段内的mid数
使用安全卫士mid数
	安全卫士主界面打开mid
使用杀毒mid数
	使用360浏览器mid数

对步骤S102中提取的预处理数据进行了初步的统计之后，对上述在不同时间段使用每个IP地址的用户终端数量进行归一化处理，获得用户使用IP地址的行为时间分布数据。在本发明提供的实施例中，即对上述表1中统计的数据进行归一化处理。由于在步骤S103对数据的初步处理过程中，将同一个用户IP对应的mid数小于4的IP判定为家用电脑，因此这一部分仅针对同一个用户IP对应的mid数大于4的数据进行归一化处理。在本实施例中，分别给出了3种具体实现方案。

第一种方案采用了26个维度，并对这26个维度做了归一化处理。这种方案是将预处理之后的数据都归一化处理成0-1之间的小数，以便于后面聚类算法的分析，因为聚类的终止是准则函数收敛，如果不进行归一化处理，那么准则函数是不能收敛的，因此，需要将数据归一化成0-1之间的数字，具体的过程后续的聚类分析部分会详细描述。归一化处理是将周一到周日各个时间段用户IP使用上述四款产品的mid数除以此用户IP的mid总数，以及将用户IP使用这四款产品的mid数除以此用户IP的mid总数，另外再加上一个维度，即每个用户IP对应的mid总数/所有用户IP对应的各mid总数中的最大值。这样就得到了26个维度，且这26个维度的数据都是0-1之间的数字。对这26个维度的数据进行归一化处理后，得到的数据结果为如下表2所示：

表2

work_sun=周日在08:00-19:00这个时间段内的mid数/mid总数
	work_Mon=周一在08:00-19:00这个时间段内的mid数/mid总数
work_Tue=周二在08:00-19:00这个时间段内的mid数/mid总数
	work_Wed=周三在08:00-19:00这个时间段内的mid数/mid总数
work_Thu=周四在08:00-19:00这个时间段内的mid数/mid总数
	work_Fri=周五在08:00-19:00这个时间段内的mid数/mid总数
work_Sat=周六在08:00-19:00这个时间段内的mid数/mid总数

notwork_sun=周日不在08:00-19:00这个时间段内的mid数/mid总数
	notwork_Mon=周一不在08:00-19:00这个时间段内的mid数/mid总数
notwork_Tue=周二不在08:00-19:00这个时间段内的mid数/mid总数
	notwork_Wed=周三不在08:00-19:00这个时间段内的mid数/mid总数
notwork_Thu=周四不在08:00-19:00这个时间段内的mid数/mid总数
	notwork_Fri=周五不在08:00-19:00这个时间段内的mid数/mid总数
notwork_Sat=周六不在08:00-19:00这个时间段内的mid数/mid总数
	home_sun=周日在20:00-22:00这个时间段内的mid数/mid总数
home_Mon=周日在20:00-22:00这个时间段内的mid数/mid总数
	home_Tue=周日在20:00-22:00这个时间段内的mid数/mid总数
home_Wed=周日在20:00-22:00这个时间段内的mid数/mid总数
	home_Thu=周日在20:00-22:00这个时间段内的mid数/mid总数
home_Fri=周日在20:00-22:00这个时间段内的mid数/mid总数
	home_Sat=周日在20:00-22:00这个时间段内的mid数/mid总数
safe=使用安全卫士mid数/mid总数
	safe_main=安全卫士主界面打开mid数/mid总数
sd=使用杀毒mid数/mid总数
	se=使用360浏览器mid数/mid总数
mids=mid总数/max(所有ip对应的mid总数)

第二种方案对第一种方案的26个维度做了进一步的合并，将周一到周五在08：00-19:00这个时间段内用户IP使用前述四款产品的mid数合并、周六和周日在08：00-19:00这个时间段内用户IP使用前述四款产品的mid数合并、周一到周五不在08：00-19:00这个时间段内用户IP使用前述四款产品的mid数合并、周六和周日不在08：00-19:00这个时间段内用户IP使用前述四款产品的mid数合并、周一到周五在20:00-22:00这个时间段内用户IP使用前述四款产品的mid数合并、周六和周日在20:00-22:00这个时间段内用户IP使用前述四款产品的mid数合并，并将这些合并的数据进行归一化处理，即将上述几个合并得到的mid数除以每个用户IP的mid总数和天数的乘积。归一化处理后得到的每个维度的数据都是0-1之间的数字。归一化处理后的11各维度的数据如下：

周一在08:00-19:00这个时间段内的mid数

周二在08:00-19:00这个时间段内的mid数

周三在08:00-19:00这个时间段内的mid数

周四在08:00-19:00这个时间段内的mid数

周五在08:00-19:00这个时间段内的mid数

这5个维度的数据合并，得到work8_19=工作日08:00-19:00时间段内mid数/mid总数（每个IP五天的总mid数）。

周六在08:00-19:00这个时间段内的mid数

周日在08:00-19:00这个时间段内的mid数

这2个维度的数据合并，得到weekend8_19=非工作日08:00-19:00时间段内的mid数/mid总数（每个IP两天的总mid数）。

周一不在08:00-19:00这个时间段内的mid数

周二不在08:00-19:00这个时间段内的mid数

周三不在08:00-19:00这个时间段内的mid数

周四不在08:00-19:00这个时间段内的mid数

周五不在08:00-19:00这个时间段内的mid数

这5个维度的数据合并，得到notwork8_19=工作日非08:00-19:00时间段内mid数/mid总数（每个IP五天的总mid数）。

周六不在08:00-19:00这个时间段内的mid数

周日不在08:00-19:00这个时间段内的mid数

这2个维度的数据合并，得到weekend8_19=非工作日不在08:00-19:00时间段内的mid数/mid总数（每个IP两天的总mid数）。

周一在20:00-22:00这个时间段内的mid数

周二在20:00-22:00这个时间段内的mid数

周三在20:00-22:00这个时间段内的mid数

周四在20:00-22:00这个时间段内的mid数

周五在20:00-22:00这个时间段内的mid数

这5个维度的数据合并，得到work20_22=工作日20:00-22:00时间段内mid数/mid总数（每个IP五天的总mid数）。

周六在20:00-22:00这个时间段内的mid数

周日在20:00-22:00这个时间段内的mid数

这2个维度的数据合并，得到weekend20_22=非工作日在20:00-22:00时间段内的mid数/mid总数（每个IP两天的总mid数）。

Safe=使用安全卫士mid数/mid总数

Safe_main=安全卫士主界面打开mid数/mid总数

Sd=使用杀毒mid数/mid总数

Se=使用360浏览器mid数/mid总数

Mids=mid总数/max(所有ip对应的mid总数)

由于前面两种方案都要受到每个用户IP对应的mid总数的影响，因此采取了第三种方案，选取了各用户IP对应的mid总数中最大的作为参考点来观察数据特性，即将每天每个时间段用户IP使用前述四款产品的mid数除以每个用户IP对应的mid总数中最大mid数。另外，将第一种方案和第二种方案中的最后五个维度去掉，是为了探究四款产品对聚类结果的影响。这样，第三种方案就选用了21个维度，对21个维度的数据进行归一化处理后得到的结果如下表3所示：

表3

work_sun=周日在08:00-19:00这个时间段内的mid数/所有属性最大mid数
	work_Mon=周一在08:00-19:00这个时间段内的mid数/所有属性最大mid数
work_Tue=周二在08:00-19:00这个时间段内的mid数/所有属性最大mid数
	work_Wed=周三在08:00-19:00这个时间段内的mid数/所有属性最大mid数
work_Thu=周四在08:00-19:00这个时间段内的mid数/所有属性最大mid数

work_Fri=周五在08:00-19:00这个时间段内的mid数/所有属性最大mid数
	work_Sat=周六在08:00-19:00这个时间段内的mid数/所有属性最大mid数
notwork_sun=周日不在08:00-19:00这个时间段内的mid数/所有属性最大mid数
	notwork_Mon=周一不在08:00-19:00这个时间段内的mid数/所有属性最大mid数
notwork_Tue=周二不在08:00-19:00这个时间段内的mid数/所有属性最大mid数
	notwork_Wed=周三不在08:00-19:00这个时间段内的mid数/所有属性最大mid数
notwork_Thu=周四不在08:00-19:00这个时间段内的mid数/所有属性最大mid数
	notwork_Fri=周五不在08:00-19:00这个时间段内的mid数/所有属性最大mid数
notwork_Sat=周六不在08:00-19:00这个时间段内的mid数/所有属性最大mid数
	home_sun=周日在20:00-22:00这个时间段内的mid数/所有属性最大mid数
home_Mon=周一在20:00-22:00这个时间段内的mid数/所有属性最大mid数
	home_Tue=周二在20:00-22:00这个时间段内的mid数/所有属性最大mid数
home_Wed=周三在20:00-22:00这个时间段内的mid数/所有属性最大mid数
	home_Thu=周四在20:00-22:00这个时间段内的mid数/所有属性最大mid数
home_Fri=周五在20:00-22:00这个时间段内的mid数/所有属性最大mid数
	home_Sat=周六在20:00-22:00这个时间段内的mid数/所有属性最大mid数

通过步骤S103，对三种方案均进行了归一化处理，得到了用户IP的行为时间分布数据，以便后续对用户IP的识别。另外，在实际应用中，通常会将进行归一化处理后的数据存储在设定的存储区中，以便需要使用数据的时候进行调用。由于数据量比较大，预设的存储区可以设置在服务器的本地磁盘，数据可以以表或者数据库的形式存储在存储区中。存储区中的存储记录有上述三种方案的用户IP行为时间分布数据。

S104：至少根据用户使用所述IP地址的行为时间分布数据，识别出指定类别IP地址。

通过前述步骤S103对数据的处理分析，获取了用户IP的行为时间分布数据，根据所述用户IP的行为时间分布数据，通过步骤S104来识别指定类别IP地址。根据前面所述，本发明一实施例中，指定类别是指公司，即通过步骤S104来识别用户IP是否属于公司IP地址。在具体实现时，可以采用多种方式来实现，一种方法是对多个IP地址采用一种或多种聚类组合的方式进行聚类分析，识别出指定类别IP地址。其中，可以采用Kmeans算法、DBscan算法、KMedoids算法等多种聚类方式中的一种或多种来识别指定类别IP地址。本实施例以采用多种聚类算法组合的方式为例，来说明本发明提供的识别指定类别IP地址的方法。具体的，在本发明提供的多种聚类算法中，发明人发现单纯采用一种聚类算法，通常对用户IP的识别准确度不高，以本发明实施例中的公司IP地址为例，单纯使用一种聚类算法，比如使用Kmeans聚类算法，由于很多非公司的IP地址的行为时间分布与公司IP地址的行为时间分布相似，因此会将这些非公司IP算入公司IP，再例如，单纯使用DBScan算法是无法对大数据进行快速的聚类分析。为此本发明实施例是采用多种聚类算法组合的方式来对IP地址进行识别的。下面以多种聚类算法组合使用以提高识别IP地址的准确度为例，进行详细说明。

本发明实施例中，对多个IP地址采用多种聚类组合的方式进行聚类分析包括，第一步，从前述收集的若干IP地址中，选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点，基于每个IP地址的行为时间分布数据与初始节点的行为时间分布数据，收集到的多个IP地址采用第一聚类方式进行聚类，识别出各类别的IP地址。具体而言，由于数据量非常大，而Kmeans聚类算法适合大数据处理，因此上述第一聚类方式选择采用了Kmeans算法，对数据进行第一次kmeans（称为Kmeans1）算法聚类分析。本步骤中，对三种方案的数据均进行了Kmeans1算法聚类，以便比较哪种方案的效果好。在最后聚类的结果中，尽可能将所有的用户IP聚类成两类，即公司IP和非公司IP，聚类分析的运行速度快，以及聚类的结果准确率高。因此，首先对三种方案都进行Kmeans1算法聚类，探讨哪种方案最接近理想状态。

Kmeans聚类算法适合大数据处理，首先，从n个数据对象随机选取k个对象作为初始聚类中心，对于剩余的每个对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值），不断重复这一过程，直到准则函数收敛。准则函数如下：

E = Σ_{i = 1}^{k} \underset{x &Element; C_{i}}{Σ} {| x - \overset{&OverBar;}{x_{i}} |}^{2}

准则函数其实就是所有对象的平方误差的总和，最后聚类出的k个聚类具有以下特点：各聚类本身尽可能地紧凑，而各聚类之间尽可能地分开。

本实施例中，对三种方案均进行了Kmeans1算法聚类。因为Kmeans算法每次运行都随机指定k个对象作为初始聚类中心，因此通过Kmeans算法聚类出来的聚类效果的好坏跟初始对象的选择有很大关系，为了降低所受到的影响，在进行Kmeans算法之前，首先选定两个已知IP地址（一个为公司IP地址，另一个为非公司IP地址）对应的数据为初始对象作为初始的聚类中心，这样进行聚类比随机选取初始对象作为初始聚类中心聚类出的效果要好。

对方案一中的数据进行Kmeans1聚类，先在整个数据中选取一个公司IP和一个非公司IP对应的数据作为初始聚类中心。由于每个IP对应的数据有26个维度，因此先给这26个维度进行编号，例如，对这26个维度依次编号为A、B、C........、X、Y、Z，由于用户IP的数目比较多，给每个IP也进行编号，例如对每个IP的编号依次为1、2、3……。假设已知编号为1的IP是公司IP,编号是2的IP为非公司IP，选择这两个IP对应的26个维度的数据作为初始聚类中心，将这两个聚类编号为1和2，对于编号为3的IP，分别计算其与编号为1的聚类以及其与编号为2的聚类的相似性，即两个聚类的距离。在本实施例中，计算两个聚类之间的距离是计算两个聚类的每个对应维度的误差的总平方和，例如，在计算编号为3的IP和编号为1的聚类的距离时，计算编号为3的IP的A维度与编号为1的聚类的A维度的差的平方，记为A²；计算编号为3的IP的B维度与编号为1的聚类的B维度的差的平方，记为B²；一直计算完编号为3的IP的Z维度与编号为1的聚类的Z维度的差的平方，记为Z²，则编号为3的IP与编号为1的聚类的距离为S₃₁ ²=A²+B²+…….+Z²。在计算编号为3的IP与编号为2的聚类之间的距离，具体的距离算法与计算编号为3的IP与编号为1的距离的距离算法一致，在此不再赘述，将此距离记为S₃₂ ²。分别比较S₃₁ ²与S₃₂ ²，找出较小值，例如是S₃₁ ²，那么就将编号为3的IP与编号为1的聚类归为一类，即将编号为3的IP与其相似性最大的聚类归为一类，得到新的聚类，即新的聚类中的对象有编号为1的IP和编号为3的IP。对于编号为4的IP归类时，先计算得到的新的聚类的聚类中心，即计算新的聚类中的每个对象的平均值作为此聚类的新的聚类中心。在本实施例中，计算编号为1的IP与编号为3的IP的平均值作为新的聚类的聚类中心，将新的聚类记为13。将编号为4的IP聚类时，计算编号为4的IP与编号为2的聚类之间的距离，以及计算编号为4的IP与编号为13的聚类之间的距离，将编号为4的IP与其距离近的聚类归为一类，得到新的聚类，再计算新的聚类的聚类中心，继续对剩余的IP进行聚类。不断重复上述的计算过程，直到准则函数收敛为止，即2个聚类中所有对象与此聚类中心之间的距离之和小于某个值。可以预先设置一个阈值，当准则函数小于这个阈值时，重复聚类过程结束，设置的阈值小一些，聚类的结果可能越准确，也可以在聚类的过程中按照聚类的当前情况调整阈值，使得到的聚类的效果更好。

在本发明的实施例中，对上述三个方案均进行了Kmeans1的聚类，结果发现方案三的聚类效果与方案二的聚类效果无明显差异，另外，方案二的聚类效果比方案一的聚类效果要差，因此本实施例中选取了方案一作为分析方案。对方案一第一次使用Kmeans算法聚类后的部分结果如下表4：

表4

由上表4可以看出，如果将网吧和学校都算入公司，那么正确率为89.89%，否则正确率为72.22%。

至此，对收集到的多个IP地址采用了第一聚类方式，即Kmeans算法，识别出各类别的IP地址。由于通过Kmeans算法聚类出来的聚类效果跟初始聚类中心的选取有很大关系，如果初始聚类中心选取好的话，最后得到的聚类效果可能也比较好；但是如果初始聚类中心选择不好的话，最后得到的聚类效果可能不好。因此Kmeans算法聚类出的结果通常准确率不高。而且Kmeans算法不适合发现非凸面形状的簇，对噪声和孤立点是不敏感的。此时需要对上述通过Kmeans算法聚类出来的指定类别IP地址进行二次聚类，即对上述识别出的IP地址，采用第二聚类方式进行聚类分析，获得该指定类别的数据分布特点。由于DBSCan算法可以发现任意形状的簇，并且能将噪声和孤立点区分出来。因此，第二聚类方式可以采用DBScan算法聚类，即在对Kmeans1聚类出来的数据，再采用DBScan算法再次聚类，找出噪声或孤立点。

由于Kmeans1算法聚类出来的非公司IP的准确率已经非常高了，而由于K means1聚类出来的公司IP准确率却比较低，由上述表4可以看出，只采用一次Kmeans算法进行聚类，会将很多非公司IP聚类成公司IP，例如通常会将网吧IP和学校IP算入公司IP。因此此处只对Kmeans1聚类出来的公司IP进行DBSCan算法聚类，来分析公司IP数据的分布特点，根据数据分布的特点，进一步对数据进行聚类分析，提高聚类的准确性。另外，去掉了最后一个维度，即Mids=mid总数/max这个维度，因为这个维度对聚类的结果没有影响。由于DBSCan算法不适合大数据的处理，因此从Kmeans1算法聚类出来的公司IP中抽取一定的数据量进行DBSCan算法聚类分析。首先，确定一数据抽取量，数据抽取量不超过公司IP的总数据量，然后设置一随机函数rand(),随机函数rand（）会自动生成一系列随机数，由于在步骤S105中对所有的用户IP进行过编号，因此在此步骤中可以按照随机数对公司IP进行抽取，如果一次抽取的数据量达不到预定的数据量，则再次利用随机函数rand（）产生随机数，再次进行抽取数据，并把每次抽取的重复数据删除，直到抽取的数据量达到预定的数据量，并且所有的数据是不重复的。进行了数据抽样后，对这些数据采用DBSCan算法进行聚类分析。

DBSCan（Density-Based Spatial Clustering of Applications with Noise）算法是一个基于密度的聚类算法，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有“噪声”的空间数据库中发现任意形状的聚类。DBSCan算法是首先设置一临域半径ε和最小数目MinPts，从包含n个对象的数据库中抽取一个未处理过的点，如果抽出的点是核心点，那么找出所有从该点密度可达的对象，形成一个簇；如果抽出的点是边缘点（非核心点），则填出本次循环，寻找下一个点。重复此过程，直到所有点都被处理。其中，有一些基本定义如下：

对象的ε-临域：给定对象的半径ε内的区域。

核心对象：如果给定对象ε-临域内的样本点数大于等于MinPts，则称该对象为核心对象。

直接密度可达：给定一个对象集合D，如果p是在q的ε-临域内，而且q是一个核心对象，我们就说对象p从对象q出发是直接密度可达的。

密度可达：如果存在一个对象链p1,p2,…,pn,p1=q，pn=p，对于任意的pi属于D，pi+1是从pi关于ε和MinPts直接密度可达的，则对象p是从对象q关于ε和MinPts密度可达的。

密度相连的：如果对象集合D中存在一个对象o，使得对象p和q是从o关于ε和MinPits密度可达的，那么对象p和q是关于ε和MinPts可达的。

噪声：一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合。不包含在任何簇中的对象被认为是“噪声”。

由于DBSCan算法对选取的参数很敏感，即数据抽取量、半径ε和最小数目MinPts的不同选取对聚类效果会造成很大的影响，参数细微的不同都可能造成差别很大的聚类效果，而参数的选择又无规律可循，只能靠经验确定。因此，在本发明的实施例中，设置了几组不同的参数，探究参数的选取对聚类效果的影响以及聚类效果比较理想情况时的参数情况。具体选择时，选择了三组不同的参数，分别为数据抽取量为10000，半径0.5，MinPts为80；数据抽取量20000，半径0.4，MinPts为90；数据抽取量为30000，半径0.5，MinPts为60。

下面以第一组参数为例，说明本实施例中的DBSCan算法聚类。首先，从Kmeans1算法聚类出来的公司IP数据中取出10000个公司IP数据，从这10000个数据中选取一个公司IP的数据作为初始节点，如果此节点为核心节点，即有80个其它的公司IP在该IP的半径为0.5的范围之内，具体是通过计算其它公司IP与此公司IP的距离，如果距离小于等于0.5，并且这样的公司IP数目达到80个，该选取的公司IP即为核心节点，然后找出所有从该核心节点密度可达的对象，形成一个簇。如果抽出的公司IP为边缘节点，即为非核心节点，就跳出本次循环，寻找下一个公司IP。一直重复这个过程，直到所有的公司IP都被处理。

DBSCan算法与Kmeans算法比较起来，不需要输入要划分的聚类个数，DBSCan算法会自动将数据划分为若干个聚类。具体选取的参数不同，DBSCan算法也会将数据划分为个数不同的聚类。本实施例以第一组参数为例，DBSCan算法将抽样数据划分为三类，另外还有孤立点，即不能归为上述三类中的任何一类，分别称为类1、类2、类3和孤立点。采用DBSCan算法对Kmeans1聚类的公司IP数据进行抽样聚类分析结果如下表5：

表5

从表5的数据结果中可以看出，类1、类2和类3的行为基本类似，均是用户IP在工作日的工作时间段使用比例比较高，其它时间使用的比例比较低，即用户IP在周一到周五的工作时间08:00-19:00使用的比例比较高，而在周一到周五的其它时间以及周末使用的比例比较低，与公司用户的行为特征非常类似，可以认为是公司用户的行为，则类1、类2和类3为公司IP；而孤立点的行为虽然也与类1、类2和类3相似，但是用户IP在各个时间段使用的比例都比较低，与公司用户的行为特征不是很相似，更像是网吧或其他公共场所的行为，则可以认为孤立点为其他公共场所的IP，例如网吧、学校等。而单纯从使用的产品来看，类1、类2、类3和孤立点在使用哪款产品比例上没有明显差异，因此可以认为产品对聚类效果没有明显的影响。

对于选取的第二组参数的数据，即数据抽取量为20000，半径0.4，最小数目MinPts为90的数据，进行DBSCan算法聚类后的结果见下表6，在选取的这组参数下，DBSCan算法将数据聚类成一类和孤立点，称为类1和孤立点。采用DBSCan算法对Kmeans1聚类的公司IP数据进行抽样聚类分析结果如下表6：

表6

从表6的数据结果中可以看出，类1的行为更像公司用户的行为，即在工作时间段用户IP使用的比例比较高，在非工作时间段用户IP使用的比例比较低，可以认为类1为公司IP；孤立点的行为更像网吧等公共场所的行为，在各个时间段用户IP使用的比例没有明显的差异，可以认为孤立点为网吧或其它公共场所的IP。类1和孤立点在对产品的使用上没有明显差异，可以认为产品对聚类效果没有影响。

对于选取的第三组参数的数据，即数据抽取量为30000，半径0.5，MinPts为60的数据，进行DBSCan算法聚类后的结果见下表7，在这组参数下，DBSCan算法将数据聚类成四类和孤立点，分别称为类1、类2、类3、类4和孤立点。采用DBSCan算法对Kmeans1聚类的公司IP数据进行抽样聚类分析结果如下表7：

表7

从表7的数据结果可以看出，类1、类2、类3和类4的行为类似，都是在工作时间段用户IP使用的比例比较高，在非工作时间段用户IP使用的比例比较低，与公司行为特征非常类似，可以认为这四类是公司IP；而孤立点的行为虽然也与类1、类2、类3和类4相似，但是在各个时间段用户IP使用的比例都比较低，与公司行为特征不是很相似，更像是网吧或其它公共场所的行为，可以认为孤立点是网吧或其它公共场所的IP。类1、类2、类3、类4和孤立点在对产品的使用上没有明显的差异，可以认为产品对聚类效果没有影响。

通过上述对选取三组不同参数的数据进行DBSCan算法聚类后的结果可以看出，在这三组不同参数中，当选取第二组参数，即数据抽取量为20000，半径0.4，最小数目MinPts为90，将整个数据聚类成一类和孤立点；选取第一组参数时，将整个数据聚类成三类和孤立点；选取第三组参数时，将整个数据聚类成四类和孤立点。本发明的目的就是希望分辨出公司IP和非公司IP，因此聚类的理想效果就是能将所有用户IP聚类成两类，即公司IP和非公司IP，在选取第二组参数的情形下，正好将抽取的数据聚类成了类1和孤立点，而类1是公司IP，孤立点是非公司IP，因此选取第一组参数，得到的聚类比选取第二组参数和选取第三组参数得到的聚类效果好，正好也说明了DBSCan算法对参数非常敏感，参数的选取不同会造成差异很大的聚类效果。

通过上述DBSCan算法，找出了经过Kmeans1聚类出的公司IP中的孤立点，此孤立点可认为是网吧或其它公共场所的IP，即非公司IP。由于经过Kmeans1聚类出来的公司IP不是特别纯，主要是因为Kmeans算法聚类与聚类的初始节点的选取有很大关系，因此根据步骤S104获得的数据分布特点，修正第一聚类方式（如Kmeans）的初始节点，并采用修正后的初始节点，对此前识别出的指定类别的多个IP地址采用第一聚类方式（即Kmeans）再次进行聚类，进一步净化指定类别IP地址，体现在本发明实施例中，具体根据步骤S104聚类出来的孤立点，对孤立点中所有的对象取平均值，作为非公司IP的初始聚类中心，即对Kmeans1聚类选取的非公司IP初始聚类中心进行修正，并采用修正后的初始聚类中心作为Kmeans2的非公司IP的初始聚类中心。然后再选取一个已知的公司IP作为公司IP这一类的初始聚类中心。此次也是只对经过Kmeans1聚类出来的公司IP进行再次Kmeans聚类分析。具体聚类分析过程与进行Kmeans1聚类的过程类似，在此不再赘述。经过第二次Kmeans算法聚类后的数据结果如下表8：

表8

从表8的数据结果中可以看出，相比Kmeans1聚类出来的结果，经过Kmeans2聚类出来的效果得到了提高，将网吧和其它公共场所之类的IP从Kmeans1聚类出来的公司IP中分离出来了，正确率可达到88.89%，明显提高了聚类的准确率，也即提高了从用户IP中判断出公司IP的准确率。

与本发明实施例提供的识别指定类别IP地址的方法相对应，本发明实施例还提供了一种识别指定类别IP地址的设备，参见图2，该设备包括：

数据收集单元201，用于收集若干IP地址的行为记录数据。

具体的，通过收集用户IP地址的行为记录数据，对行为记录数据进行一定的分析，识别用户IP指定类别IP地址。本发明实施例中，主要是记录用户IP使用安全软件、打开安全软件主界面、使用杀毒软件和使用浏览器这四款产品的行为日志作为数据源。前述方法步骤S101可以通过此数据收集单元201来收集数据，相关技术特征也可以参见步骤S101部分的详细描述，此处不再赘述。

数据提取单元202，用于从上述收集的行为记录数据中提取预处理数据，该提取的预处理数据至少包括IP地址的地址信息以及行为的时间信息。

上述数据收集单元201收集了用户IP的行为记录数据，为了实现本发明的目的，即通过用户IP的行为时间分布数据，来识别用户IP是否指定类别IP地址，数据提取单元202对数据收集单元201收集的数据进行提取，提取出为实现本发明目的需要的数据。本发明一实施例主要提取了用户IP的地址信息以及产生行为的时间信息，还提取了每个IP地址对应的用户终端数量以及用户终端标识mid。前述方法步骤S102可以通过此数据提取单元202来对上述数据收集单元201收集的行为记录数据进行提取，相关技术特征可以参见步骤S102部分的详细描述，在此不再赘述。

数据处理单元203，用于对提取到的预处理数据进行处理分析，获得用户使用每个IP地址的行为时间分布数据。

具体的，数据处理单元S03包括：第一统计单元，主要是用来统计每个IP地址对应的用户终端数量；以及第二统计单元，主要是用于对用户终端数量大于预置阈值的每个IP地址的预处理数据，根据行为时间不同划分为多个维度，并统计在不同时间段用户使用每个IP地址的用户终端数量。由此通过上述第一统计单元和第二统计单元统计的不同时间段用户使用每个IP地址的用户终端数量以及每个IP地址对应的总用户终端数量，数据处理单元203将统计的数据进行归一化处理，获得用户使用每个IP地址的行为分布数据，以便后续采用一定的方法来对用户IP进行识别。方法步骤S103可以通过此数据处理单元203对数据提取单元202提取的预处理数据进行处理分析，得到用户IP的行为时间分布数据，相关技术特征可以参见步骤S103的详细描述，在此不再赘述。

地址识别单元204，用于至少根据用户使用IP地址的行为时间分布数据，识别出指定类别IP地址。

根据上述数据处理单元203获得的用户IP的行为时间分布数据，地址识别单元204采用一定的方法对用户IP来进行识别。具体应用时，有多种方式来实现，其中，地址识别单元S104包括聚类分析单元，用于对多个IP地址采用一种或多种聚类组合的方式进行聚类分析，识别出指定类别IP地址。其中，聚类分析单元对多个IP地址采用多种聚类组合时包括：第一聚类分析单元，用于从数据收集单元201收集的若干IP地址中，选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点，基于每个IP地址的行为时间分布数据与初始节点的行为时间分布数据，收集到的多个IP地址采用第一聚类方式进行聚类，识别出各类别的IP地址。可选的，本发明实施例中，第一聚类方式为Kmeans。

由于通过Kmeans识别出来的某种类别的IP地址可能不纯，因此，数据收集单元204还包括第二聚类分析单元，主要用于对识别出的指定类别IP地址，采用第二聚类方式进行抽样聚类分析，获得该指定类别IP地址的数据分布特点。在本发明提供的一实施例中，第二聚类方式为DBScan。

由于DBScan算法进行的是抽样聚类分析，并且不适合大数据的处理，因此需要根据DBScan算法获得的行为数据分布特点，再次进行第三次聚类分析。根据第二聚类分析单元获得的指定类别IP地址的数据分布特点，采用第三次聚类，因此，数据收集单元204还包括第三聚类分析单元，主要用于根据所述采用第二聚类方式获得的数据分布特点，修正第一聚类方式的初始节点，并采用修正后的初始节点，对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类，进一步净化指定类别IP地址。在本发明实施例中，以公司为例，通过对第一次Kmeans聚类出来的公司IP进一步聚类，将上述公司IP中隐藏的非公司IP识别出来，提高了IP地址识别的准确率。前述步骤S104可以通过此地址识别单元204来进行IP地址识别，相关技术特征可以参见步骤S104的描述，在此不再赘述。

在实际应用中，指定类别IP地址，均具有特定的行为时间上的分布特点，因此数据处理单元203在获得用户IP的行为时间分布数据后，地址识别单元204根据上述行为时间分布数据，对照实际应用中指定类别在行为时间上的分布特点，来识别所述用户IP是否属于此指定类别IP地址。

参见图3，图3示出了根据本发明一个实施例的一种提高用户终端安全防御的方法流程图，下面根据图3对本发明提供的方法进行详细说明。本发明提供的用于提高用户终端安全防御的方法包括：

S310：根据前述本发明提供的识别指定类别IP地址的方法各实施例，识别出指定类别IP地址。具体的识别过程可以参见前述步骤S101、S102、S103以及S104的详细描述，在此不再赘述。

S311：监控各用户终端的信息安全状况以及IP地址；具体的监控方式可以采用现有或将来的各种监控方式，本发明实施例对此并没有限制。

S312：当在指定类别IP地址对应的用户终端中发现恶意程序时，提高安全防御级别或进行特殊安全防御处理。

具体应用中，在本发明实施例中，一方面通过步骤S310对IP地址进行识别，识别出某个指定类别，比如公司IP。另一方面通过步骤S311在对IP地址的用户终端的信息安全状况进行实时监控，以便随时了解各用户终端的安全状况。当通过步骤S311发现某个指定类别，如公司IP的用户终端中存在恶意程序，例如，陷门、特洛伊木马、蠕虫及病毒等，对用户终端的安全造成威胁。由于公司IP的终端中出现恶意程序，万一造成损害后果会比较严重，因此可以通过步骤S312提高公司IP下的这些用户终端的安全防御级别，即增强这些用户终端的安全防御能力，以便更好地免除恶意程序的攻击。当然，也可以进行特殊的安全防御处理，例如，在公司IP的用户终端中发现病毒，可以使用杀毒软件清除病毒；若出现恶意插件，比如应用软件的捆绑安装、没有卸载项，可以利用安全软件对这些应用软件强制卸载，也可以通过其它的途径对用户终端进行安全防御处理。

参见图4，与本发明提供的一种提高用户终端安全防御的方法相对应，本发明还提供了一种提高终端安全防御的系统，该系统包括：

一种识别指定类别IP地址的设备410，根据该设备识别出指定类别IP地址。该设备的一种具体实现可以为前文图2所示的设备实施例，具体可参看该设备的结构，在此不再赘述。

提高终端安全防御的系统，除了包含上述识别指定类别IP地址的设备410之外，还包括两个单元，分别为监控单元411和安全防御单元412，下面对这两个单元进行描述：

监控单元411，用于监控各用户终端的信息安全状况以及IP地址；

安全防御单元412，用于监控单元在属于上述指定类别IP地址对应的用户终端中发现恶意程序时，提高安全防御级别或进行特殊安全防御处理。

在具体应用中，IP地址识别设备在对用户IP进行识别的过程中，监控单元411可以同时对用户终端的信息安全状况以及用户IP地址进行实时监控，以便及时了解用户终端的安全状况。当监控单元411监控到某个指定类别（如果公司IP类别）的用户终端中存在恶意程序时，安全防御单元412可以提高该类别的这些用户终端的安全防御级别，或者进行特殊的安全防御处理。前述方法实施例中的步骤S311可以通过此处的监控单元411对用户终端的信息安全状况进行监控，同样，前述步骤S312可以通过此处的安全防御单元412提高用户终端的安全防御级别或进行特殊的安全防御处理，相关技术特征可以参见步骤S311、S312详细的描述，在此不再赘述。

根据本发明公开的一种识别指定类别IP地址的方法及设备，经过数据的收集分析处理得到用户使用IP地址的行为时间分布数据，根据上述用户IP的行为时间分布数据，采用一定的方法，识别出指定类别IP地址，而不是单纯地依靠单个IP对应的用户终端数来进行识别，能够更加精准地定位出公司出口IP地址，提高了识别的准确率。另外，本发明采用多个聚类算法结合的方式，而不是采用现有技术中单纯依靠一种聚类算法，现有技术中单纯使用一种聚类算法容易将其它类别的IP地址算成指定类别IP地址，例如Kmeans，或者对大数据量无法快速处理，例如DBScan，因此采用多种算法组合聚类，提高了聚类的准确度以及聚类的速度，也即提高了识别用户IP为指定类别IP地址的准确率和效率。进一步，将现有技术中利用用户IP对应的用户终端数量识别用户IP属于哪种类别的IP地址与本发明提供的方法相结合，首先通过现有技术识别出某一类别的IP地址，减少了后续对指定类别IP地址识别的数据量，也就减少了计算机处理数据的负担。

此外，本发明还公开了一种用于提高用户终端安全防御的方法及系统，首先，通过前述本发明提供的识别指定类别IP地址的方法及系统，识别出指定类别IP地址，由于在现实中比较关注某一类别IP地址的用户终端的信息安全，因此在对IP地址进行识别时，同时也监控用户终端的信息安全状况以及用户终端的IP地址，当监控到指定类别的用户终端中存在恶意程序时，提高这些用户终端的安全级别或进行特殊的安全防御处理，能够针对某一特定类别的用户群，提高其终端使用的安全性。

另外，通过本发明方案能够准确地识别出指定类别IP地址，在本发明提供的实施例中还统计了每个IP地址的用户终端数量以及使用某款产品的用户终端数量，可以初步了解某款产品在属于各种类别IP地址的用户群的使用情况，根据产品的使用情况，可以为这些特定用户群提供更好的产品服务。

c9、如权利要求8所述的设备，所述第一聚类方式采用Kmeans算法，所述第二聚类方式采用DBScan算法。

c10、如权利要要求6-9任一项所述的设备，所述数据提取单元提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识，所述数据分析单元包括：

第一统计单元，用于统计每个IP地址对应的用户终端数量；

第二统计单元，用于对用户终端数量大于预置阈值的每个IP地址的预处理数据，根据行为时间不同划分为多个维度，并统计在不同时间段使用每个IP地址的用户终端数量；

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的判断用户IP为公司IP的方法设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本申请可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令（诸如程序模块）的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

Claims

1.一种识别指定类别IP地址的方法，包括：

收集若干IP地址的行为记录数据；

对所述提取到的预处理数据进行分析，获得用户使用所述IP地址的行为时间分布数据；

2.如权利要求1所述的方法，所述至少根据用户使用所述IP地址的行为时间分布数据，识别出指定类别IP地址包括：

基于每个IP地址的行为时间分布数据，对多个IP地址采用一种或多种聚类组合的方式进行聚类，识别出指定类别IP地址。

3.如权利要求2所述的方法，所述基于每个IP地址的行为时间分布数据，对多个IP地址采用多种聚类组合的方式进行聚类包括：

从所述收集的若干IP地址中，选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点，基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据，采用第一聚类方式对收集到的多个IP地址进行聚类，识别出指定类别IP地址；

根据所述采用第二聚类方式获得的数据分布特点，修正第一聚类方式的初始节点，并采用修正后的初始节点，对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类，进一步筛选出指定类别IP地址。

4.如权利要求3所述的方法，所述第一聚类方式采用Kmeans算法，第二聚类方式采用DBScan算法。

5.如权利要求1至4中任一项所述的方法，所述提取的预处理数据还包括每个IP地址对应的用户终端数量以及用户终端标识，所述对提取到的预处理数据进行分析包括：

统计每个IP地址对应的用户终端数量；

对用户终端数量大于预置阈值的每个IP地址的预处理数据，根据行为时间不同划分为多个维度，并统计在不同时间段使用每个IP地址的用户终端数量；

6.一种识别指定类别IP地址的设备，包括：

数据收集单元，用于收集若干IP地址的行为记录数据；

数据处理单元，用于对所述提取到的预处理数据进行分析，获得用户使用所述IP地址的行为时间分布数据；

7.如权利要求6所述的设备，所述地址识别单元包括：

8.如权利要求7所述的设备，所述聚类分析单元包括：

第一聚类分析单元，用于从所述收集的若干IP地址中，选取至少两个已知属于不同类别的IP地址作为第一聚类方式的初始节点，基于每个IP地址的行为时间分布数据与所述初始节点的行为时间分布数据，采用第一聚类方式对收集到的多个IP地址进行聚类，识别出指定类别IP地址；

第三聚类分析单元，用于根据所述采用第二聚类方式获得的数据分布特点，修正第一聚类方式的初始节点，并采用修正后的初始节点，对此前识别出的指定类别的多个IP地址采用第一聚类方式再次进行聚类，进一步筛选出指定类别IP地址。

9.一种提高用户终端安全防御的方法，包括，预先通过权利要求1至5中任一项所述识别指定类别IP地址的方法，识别出指定类别IP地址；

监控各用户终端的信息安全状况以及IP地址；

10.一种提高用户终端安全防御的系统，包括，权利要求6-8任一项所述识别指定类别IP地址的设备，还包括：