CN110677309B

CN110677309B - 人群聚类方法及系统、终端以及计算机可读存储介质

Info

Publication number: CN110677309B
Application number: CN201810720281.6A
Authority: CN
Inventors: 杨敬; 陈程; 杨旭虹; 张英
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2021-12-14
Anticipated expiration: 2038-07-03
Also published as: CN110677309A

Abstract

本发明提出一种人群聚类方法及系统、终端以及计算机可读存储介质。该人群聚类方法包括：抽取用户的IP地址及基础数据；根据所述基础数据，对所述IP地址进行分类，形成不同的IP类型；根据所述IP地址所处的不同地域，将所述IP类型按地域进行区域划分，形成IP区域；基于所述IP区域，统计不同用户在所述IP区域上，间隔时间内，在相同IP地址上，共同出现的次数；以及根据出现次数，对用户进行聚类，得到聚类人群。通过本发明的人群聚类方法，可以通过用户的网络行为，得到大量特定场景的有效用户群体。

Description

人群聚类方法及系统、终端以及计算机可读存储介质

技术领域

本发明涉及通信互联网技术领域，尤其涉及一种人群聚类方法及系统、终端以及计算机可读存储介质。

背景技术

俗话说，物以类聚，人以群分。如何通过互联网用户的行为数据，区分用户所属的代表性群体，一直是重要的技术研究方向和课题。

目前的技术方案，主要是基于社交网络数据的人群聚类和基于位置数据的人群聚类。

但是，基于社交网络数据的人群聚类方法对数据的要求较高，数据难以获取。基于位置数据的人群聚类方法无法解决特定场景的人群聚类问题。

因此，如何通过互联网上，用户的网络行为，得到大量特定场景的有效用户群体，是大家十分关注的问题。

发明内容

本发明实施例提供一种人群聚类方法及系统、终端以及计算机可读存储介质，以解决现有技术中的以上的一个或多个技术问题，或至少提供一种有益的选择。

第一方面，本发明实施例提供了一种人群聚类方法，所述方法包括：抽取用户的IP地址及基础数据；

根据所述基础数据，对所述IP地址进行分类，形成不同的IP类型；

根据所述IP地址所处的不同地域，将所述IP类型按地域进行区域划分，形成IP区域；

基于所述IP区域，统计不同用户在所述IP区域上，间隔时间内，在相同的所述IP地址上，共同出现的次数；以及

根据出现次数，对用户进行聚类，得到聚类人群。

结合第一方面，本发明在第一方面的第一种实施方式中，所述基础数据包括以下至少一种：搜索行为、时间戳和行为的位置坐标。

结合第一方面的第一种实施方式，本发明在第一方面的第二种实施方式中，所述基于所述IP区域，统计不同用户在所述IP区域上，间隔时间内在相同的所述IP地址上，共同出现的次数，包括：

根据每个IP区域，建立以用户为顶点的无向图；以及

根据两个顶点的用户在间隔时间内，在相同的所述IP地址上，共同出现的次数，计算两个顶点之间的边的权重。

结合第一方面的第二种实施方式，本发明在第一方面的第三种实施方式中，所述对出现次数多的用户进行聚类，得到聚类人群，包括：

基于社区发现算法，根据所述权重的大小，对所述无向图中的用户进行聚类，得到聚类人群。

结合第一方面的第三种实施方式，本发明在第一方面的第四种实施方式中，所述基于社区发现算法，根据所述权重的大小，对所述无向图中的用户进行聚类，包括：

根据所述权重的大小，将所述无向图分割成多个子图；以及

将各个所述子图中的所述顶点所对应的用户进行聚类，得到聚类人群。

结合第一方面的第四种实施方式，本发明在第一方面的第五种实施方式中，所述根据所述权重的大小，将所述无向图分割成多个子图，包括：

将所述权重相差小的各个所述顶点和所述边，分割到同一子图中；以及

将所述权重相差大的各个所述顶点和所述边，分割到不同子图中。

结合第一方面及第一方面的上述任一种实施方式，本发明在第一方面的第六种实施方式中，所述方法还包括：

过滤所述IP地址中的无效IP。

结合第一方面的第六种实施方式，本发明在第一方面的第七种实施方式中，所述过滤所述IP地址中的无效IP，包括：

过滤通过移动网络登录的移动IP；以及

过滤在预设时间内，登录人次大于阈值的公共IP

结合第一方面的第七种实施方式，本发明在第一方面的第八种实施方式中，在所述对出现次数多的用户进行聚类，得到聚类人群之后，所述方法还包括：

根据所述IP类型，推定所述聚类人群的关系。

第二方面，本发明实施例提供了一种人群聚类系统，IP抽取单元，配置用于抽取用户的IP地址及基础数据；

IP分类单元，配置用于根据所述基础数据，对所述IP地址进行分类，形成不同的IP类型；

IP划分单元，配置用于根据所述IP地址所处的不同地域，将所述IP类型按地域进行区域划分，形成IP区域；

共现统计单元，配置用于基于所述IP区域，统计不同用户在所述IP区域上，间隔时间内，在相同的所述IP地址上，共同出现的次数；以及

用户聚类单元，配置用于根据出现次数，对用户进行聚类，得到聚类人群。

结合第二方面，本发明在第二方面的第一种实施方式中，所述共现统计单元包括：

无向图建立单元，配置用于根据每个IP区域，建立以用户为顶点的无向图；以及

权重计算单元，配置用于根据两个顶点的用户在间隔时间内，在相同的所述IP地址上，共同出现的次数，计算两个顶点之间的边的权重。

结合第二方面的第一种实施方式，本发明在第二方面的第二种实施方式中，所述用户聚类单元，还配置用于基于社区发现算法，根据所述权重的大小，对所述无向图中的用户进行聚类，得到聚类人群。

结合第二方面的第二种实施方式，本发明在第二方面的第三种实施方式中，用户聚类单元包括：

子图分割单元，配置用于根据所述权重的大小，将所述无向图分割成多个子图；以及

人群聚类单元，配置用于将各个所述子图中的所述顶点所对应的用户进行聚类，得到聚类人群。

结合第二方面的第三种实施方式，本发明在第二方面的第四种实施方式中，

所述子图分割单元，还配置用于将所述权重相差小的各个所述顶点和所述边，分割到同一子图中；以及

结合第二方面及第二方面的上述任一种实施方式，本发明在第二方面的第五种实施方式中，所述系统还包括：

IP过滤单元，配置用于过滤所述IP地址中的无效IP。

结合第二方面的第五种实施方式，本发明在第二方面的第六种实施方式中，IP过滤单元包括：

移动过滤单元，配置用于过滤通过移动网络登录的移动IP；以及

公共过滤单元，配置用于过滤在预设时间内，登录人次大于阈值的公共IP。

结合第二方面的第六种实施方式，本发明在第二方面的第七种实施方式中，所述系统还包括：

关系推定单元，配置用于根据所述IP类型，推定所述聚类人群的关系。

第三方面，本发明实施例提供了一种人群聚类终端，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一所述人群聚类方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一种所述人群聚类方法。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

上述技术方案中的一个技术方案具有如下优点或有益效果：通过本发明的人群聚类方法，可以通过用户的网络行为，得到大量特定场景的有效用户群体。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出了根据本发明一个实施例的人群聚类方法100的流程图；

图2示出了根据本发明另一个实施例的人群聚类方法200的流程图；

图3示出了根据本发明一个实施例的无向图的示意图；

图4示出了根据本发明另一个实施例的人群聚类方法300的流程图；

图5示出了根据本发明另一个实施例的人群聚类方法400的流程图；

图6示出了根据本发明另一个实施例的人群聚类方法500的流程图；

图7示出了根据本发明另一个实施例的人群聚类方法600的流程图；

图8示出了根据本发明一个实施例的人群聚类系统800的结构框图；

图9示出了根据本发明另一个实施例的人群聚类系统900的结构框图；

图10示出了根据本发明另一个实施例的人群聚类系统1000的结构框图；

图11示出了根据本发明另一个实施例的人群聚类系统1100的结构框图；

图12示出了根据本发明另一个实施例的人群聚类系统1200的结构框图；

图13示出了根据本发明另一个实施例的人群聚类系统1300的结构框图；以及

图14示出了根据本发明的人群聚类终端的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下面结合图1至图14所示，对本发明的人群聚类方法、系统和终端进行描述。

参见图1所示，本发明的人群聚类方法100，包括步骤S101至步骤S105。

首先，通过IP抽取步骤S101，可以从全网用户的网络行为日志中，抽取用户的IP(Internet Protocol，网络之间互连的协议)地址和基础数据，以便用于后续处理。

接着，通过IP分类步骤S102，可以根据基础数据，对IP地址进行分类，形成不同的IP类型。

其中，基础数据可以包括以下至少一种：搜索行为、时间戳和行为的位置坐标等。

在一种实施例中，以基础数据中的搜索行为为例，可以根据搜索行为的特征，例如：查询、分发邮件、阅读和购物等的特征，综合分析和计算，对IP进行分类。例如：可以将涉及到查询和分发邮件等特征的IP地址，分类形成公司IP类型；将涉及到阅读等特征的行为的IP地址，分类形成学校IP类型；将涉及到购物等特征的行为的IP地址，分类形成家庭IP类型。

在一种实施例中，可以根据IP地址的位置坐标结合区域地理围栏(位置坐标序列组成的多边形)，判断IP地址所属位置周边的环境，例如：IP地址位于学校内，或者写字楼内等。

还可以，根据一段时间内，连接该IP地址的用户数量以及连接的时间，来判断IP的性质，例如：办公IP类型，在工作日，白天用户量大，晚上用户量少；家庭IP类型，在工作日，晚上用户量相对较大等。

也可以，根据IP地址所属的位置坐标，随时间变化的情况，判断IP地址的性质，例如：移动IP(2G/3G/4G)的位置坐标随时间变化的幅度较大；而固网IP的位置坐标在一个较长的时间段内，位置坐标几乎不变。

然后，通过IP划分步骤S103，可以根据IP地址所处的不同地域，将IP类型按地域进行区域划分，形成IP区域。

在一种实施例中，可以根据IP地址所处的不同区域，例如：北京、广州、上海等，将公司IP类型、学校IP类型和家庭IP类型等进行区域划分，从而，可以划分出北京的公司IP类型，即，形成北京公司IP区域；划分出北京的学校IP类型，即，形成北京学校IP区域；划分出广州的学校IP类型，即，形成广州学校IP区域；划分出广州的家庭IP类型，即，形成广州家庭IP区域；以及划分出上海的家庭IP类型，即，形成上海家庭IP区域。

再通过共现统计步骤S104，基于所述IP区域，统计不同用户在IP区域上，间隔时间内，在相同的IP地址上，共同出现的次数。

在一种实施例中，在北京公司IP区域中，可以统计出用户A、用户B、用户C和用户D等，在间隔时间，例如：5分钟内，在相同的IP地址上，共同出现网络行为的次数。其中，网络行为可以包括搜索行为、查找行为、阅读行为和购物行为等，但并不仅限于此。

当然，间隔时间可以根据需要而设定，在这里不做具体限制。

最后，通过用户聚类步骤S105，可以对共同出现次数相接近的用户进行聚类，得到聚类人群。

在一种实施例中，经统计，在北京公司IP区域中，在一个相同的IP地址上，用户A、用户B、用户C和用户D，在5分钟内，用户A和用户B共同出现的次数分别是20次；用户A和用户C共同出现的次数分别是15次；用户A和用户D共同出现的次数分别是0次。那么，可以将出现次数相对接近的用户A、用户B和用户C进行聚类，从而，得到聚类人群。

根据本发明的人群聚类方法100，可以通过用户的网络行为，对用户的IP地址进行分类，再根据IP地址所处的区域将IP地址进行区域划分。最后，统计得出不同用户在同一IP区域内，同一IP地址上，共同出现的次数，并将共同出现次数接近的用户进行聚类，从而，得到同一IP地址内，即，特定场景下的有效的聚类人群。

参见图2所示，本发明一个实施例的人群聚类方法200，在方法100的基础上，共现统计步骤S104包括无向图建立步骤S1041和权重计算步骤S1042。

结合参见图3所示，在无向图建立步骤S1041中，可以根据由IP划分步骤S103所形成的IP区域，在每个IP区域中建立以用户为顶点的无向图。

进一步地，在权重计算步骤S1042中，可以根据两个顶点的用户在间隔时间内，在相同的IP地址上，共同出现的次数，计算两个顶点之间的边的权重。如图3所示，计算得到的两个顶点的边的权重值较大的，表示两个顶点的用户在间隔时间内，在相同的IP地址上，共现的次数较多。

在一种实施例中，以北京公司IP区域为例，如果用户A和用户B，在5分钟的间隔时间内，在相同的IP地址上，共同出现了1次，那么可以对用户A和用户B之间的边的权重，做加1处理。如果，在5分钟的间隔时间内，用户A和用户B，在该IP地址上，共同出现了1次之后，又接着共同出现n次，那么可以对用户A和用户B之间的边的权重，做加n处理。其中，n可以是大于等于1的整数。

优选地，用户聚类步骤S105中，可以基于社区发现算法，根据在权重计算步骤S1042中所得到的，两个顶点之间的边的权重的大小，对无向图中的用户进行聚类。从而，得到聚类人群。

在一种实施例中，参见图3所示，以北京公司IP区域为例，在相同的IP地址上，如果用户A、用户B、用户C和用户D，在5分钟的间隔时间内，通过权重计算步骤S1042，得到用户A和用户B之间的边的权重值是20；用户A和用户C之间的边的权重值是15；用户A和用户D之间的边的权重值是1。那么。可以基于社区发现算法，在图3所示的无向图中，将权重相接近的边所对应的用户进行聚类，即，将用户A、用户B和用户C聚类，得到聚类人群。

其中，社区反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系。社区发现算法，可以用于研究网络中的社区，并对理解整个网络的结构和功能起到至关重要的作用，可帮助我们分析及预测整个网络各元素间的交互关系。

根据本发明的人群聚类方法200，可以通过社区发现算法与无向图相结合，对用户进行聚类分析，从而得到更准确的聚类人群。

参见图4所示，本发明一个实施例的人群聚类方法300，在方法200的基础上，用户聚类步骤S105包括子图分割步骤S1051和人群聚类步骤S1052。

在子图分割步骤S1051中，可以根据权重计算步骤S1042所计算得到的，各个顶点之间的边的权重的大小，将无向图分割成多个子图。

优选地，在分割无向图时，可以将权重相差小的各个顶点和边，分割到同一子图中。并且，将权重相差大的各个顶点和边，分割到不同子图中。从而，可以使得在同一子图中的各个用户的关系较为强烈，而在不同子图之间的用户的关系较为薄弱。

在一种实施例中，以北京公司IP区域为例，如果用户A、用户B、用户C、用户D、用户E和用户F，在5分钟的间隔时间内，通过权重计算步骤S1042，得到用户A和用户B之间的边的权重值是20；用户A和用户C之间的边的权重值是15。而用户D和用户E之间的边的权重值是100；用户D和用户F之间的边的权重值是110。

那么，可以推知，用户A、用户B和用户C之间的边的权重相差较小，从而，可以将用户A、用户B和用户C所对应的顶点和边分割到同一子图之中。同理，用户D、用户E和用户F之间的边的权重相差较小，从而，可以将用户D、用户E和用户F所对应的顶点和边分割到同一子图之中。相反地，用户A、用户B和用户C之间的边的权重与用户D、用户E和用户F的之间的边的权重相差较大，因此，用户A、用户B和用户C，与用户D、用户E和用户F分割在不同的子图中。

在人群聚类步骤S1052中，各个子图中的顶点所对应的用户进行聚类，得到聚类人群。

在一种实施例中，在用户A、用户B和用户C所对应的顶点和边所位于的子图中，可以将各个顶点所对应的用户，即，用户A、用户B和用户C进行聚类。从而，得到聚类人群。

根据本发明的人群聚类方法300，可以通过分割子图，将相互之间的关系较为强烈的用户划分在同一子图中，将相互之间的关系较为薄弱的用户划分在不同子图中，并且，在各个子图中进行用户聚类。从而，可以保证了所得到的聚类人群的准确性。

参见图5所示，本发明一个实施例的人群聚类方法400，在方法100或方法200或方法300的基础上，人群聚类方法400还包括IP过滤步骤S102’。

通过IP过滤步骤S102’，可以从IP抽取步骤S101所得到IP地址中，过滤掉无效IP。

通过本发明的人群聚类方法400，可以过滤掉IP地址中的无效IP，保证各个IP类型在分类上的相对准确，并且，减少无效IP对后续步骤的干扰。

参见图6所示，本发明一个实施例的人群聚类方法500，在方法100或方法200或方法300或方法400的基础上，IP过滤步骤S102’包括移动过滤步骤S1021’和公共过滤步骤S1022’。

在移动过滤步骤S1021’中，可以过滤通过移动网络登录的移动IP。由于，移动网络(2G/3G/4G等)登录的IP，不能够代表特定的场景，例如：学校、公司或家庭，无法对移动IP根据场景聚类。因此，为了避免移动IP对后续IP分类、IP划分和用户聚类步骤等的干扰和影响，可以在移动过滤步骤S1021’中，过滤掉移动IP。

在公共过滤S1022’中，可以过滤在预设时间内，登录人次大于阈值的公共IP。

在一种实施例中，可以预先设定预设时间和人次阈值，例如，将预设时间设定为1小时，将人次阈值设定为1000人次。如果在IP分类步骤S102所得到的IP类型中，有某一IP在1小时内，有超过1000人次进行过登录。那么，可以将该IP推定为公共IP，并从所抽取到的IP地址中，将其过滤掉。这样，才能够保证后续在IP分类、IP划分以及用户聚类上的相对准确。

通过本发明的人群聚类方法500，可以过滤掉IP地址中的移动IP和公共IP，从而，保证在IP分类、IP划分以及用户聚类上的相对准确。并且，过滤掉移动IP和公共IP后，可以减少对后续的IP分类步骤、IP划分步骤和IP聚类步骤的输入，从而，可以减少对后续步骤的干扰。

参见图7所示，本发明一个实施例的人群聚类方法600，在方法100或方法200或方法300或方法400或方法500的基础上，人群聚类方法600还包括关系推定步骤S106。

在关系推定步骤S106中，在经用户聚类步骤S105得到聚类人群后，可以根据该聚类人群所处的IP类型，推定聚类人群的关系。

在一种实施例中，以北京公司IP区域为例，如果用户A、用户B、用户C和用户D，经过上述的步骤S101至步骤S105，将用户A、用户B和用户C聚类，得到聚类人群。那么，聚类人群用户A、用户B和用户C，是由北京公司IP区域中聚类得到的，根据IP类型，即，公司IP，可以推定用户A、用户B和用户C为同事关系。

当然，还可以根据不同的IP类型，例如：家庭IP、学校IP等，推定出由该IP类型所聚类得到的聚类人群，可能是亲属、同事或同学关系等。

通过本发明的人群聚类方法600，可以在得到聚类人群后，可以通过IP类型，推定聚类人群的关系，从而，可以得到有效的用户群体，例如：亲属关系群体、同学关系群体和同事关系群体等。而在网络生活中，需要向特定用户推送或者营销时，可以通过方法600所得到的用户群体，向其定向操作，以提高成单率，降低向无效群体操作所引起的坏账率。例如：如果想进行教育产品的投放营销，可以选择来自学校IP里的同学或者师生或家长关系的群体，进行投放；如果想进行理财产品或者保险产品的投放营销，可以选择来自办公IP里的同事关系的群体，进行投放；如果想进行贷款风险评估，可以选择来自家庭IP里的亲属关系的群体，进行投放；等等。

参见图8所示，一种人群聚类系统800，包括：IP抽取单元801、IP分类单元802、IP划分单元803、共现统计单元804和用户聚类单元805。

IP抽取单元801，配置用于抽取用户的IP地址及基础数据，以便用于后续处理。

IP分类单元802，配置用于根据基础数据，对IP地址进行分类，形成不同的IP类型。

IP划分单元803，配置用于根据IP地址所处的不同地域，将IP类型按地域进行区域划分，形成IP区域。

共现统计单元804，配置用于基于IP区域，统计不同用户在所述IP区域上，间隔时间内，在相同IP地址上，共同出现的次数。

用户聚类单元805，配置用于根据出现次数，对用户进行聚类，得到聚类人群。

具体地，图8所示的人群聚类系统800与图1所示的人群聚类方法100相对应。图8所示的系统的具体实现方式参照图1所示的方法的实施例中的描述。

参见图9所示，一种人群聚类系统900，在系统800的基础上，共现统计单元104包括无向图建立单元8041和权重计算单元8042。

无向图建立单元8041，配置用于根据每个IP区域，建立以用户为顶点的无向图。

权重计算单元8042，配置用于根据两个顶点的用户在间隔时间内，在相同IP地址上，共同出现的次数，计算两个顶点之间的边的权重。

具体地，图9所示的人群聚类系统900与图2所示的人群聚类方法200相对应。图9所示的系统的具体实现方式参照图2所示的方法的实施例中的描述。

参见图10所示，一种人群聚类系统1000，在系统900的基础上，用户聚类单元805进一步包括子图分割单元8051和人群聚类单元8052。

子图分割单元8051，配置用于根据权重的大小，将无向图分割成多个子图。

人群聚类单元8052，配置用于将各个子图中的顶点所对应的用户进行聚类，得到聚类人群。

具体地，图10所示的人群聚类系统1000与图4所示的人群聚类方法300相对应。图10所示的系统的具体实现方式参照图4所示的方法的实施例中的描述。

参见图11所示，一种人群聚类系统1100，在系统800或系统900或系统1000的基础上，人群聚类系统1100进一步包括IP过滤单元802’。

IP过滤单元802’，配置用于过滤IP地址中的无效IP。

具体地，图11所示的人群聚类系统1100与图5所示的人群聚类方法400相对应。图11所示的系统的具体实现方式参照图5所示的方法的实施例中的描述。

参见图12所示，一种人群聚类系统1200，在系统800或系统900或系统1000或系统1100的基础上，IP过滤单元802’进一步包括移动过滤单元8021’和公共过滤单元8022’。

移动过滤单元8021’，配置用于过滤通过移动网络登录的移动IP。

公共过滤单元8022’，配置用于过滤在预设时间内，登录人次大于阈值的公共IP。

具体地，图12所示的人群聚类系统1200与图6所示的人群聚类方法500相对应。图12所示的系统的具体实现方式参照图6所示的方法的实施例中的描述。

参见图13所示，一种人群聚类系统1300，在系统800或系统900或系统1000或系统1100或系统1200的基础上，人群聚类系统1300还包括关系推定单元806。

关系推定单元806，配置用于根据IP类型，推定聚类人群的关系。

具体地，图13所示的人群聚类系统1300与图7所示的人群聚类方法600相对应。图13所示的系统的具体实现方式参照图7所示的方法的实施例中的描述。

参见图14所示，一种人群聚类终端包括存储器910和处理器920。存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行计算机程序时实现上述实施例中的人群聚类方法。存储器910和处理器920的数量可以为一个或多个。

该服务器还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

在一种实施例中，本发明还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一种所述人群聚类方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种人群聚类方法，其特征在于，所述方法包括：

抽取用户的IP地址及基础数据，所述基础数据包括搜索行为；

基于所述IP区域，统计在所述IP区域上，间隔时间内，在相同的所述IP地址上，不同用户共同出现网络行为的次数；以及

根据所述不同用户共同出现网络行为的次数，对用户进行聚类，得到聚类人群。

2.根据权利要求1所述的方法，其特征在于，所述基础数据还包括以下至少一种：时间戳和行为的位置坐标。

3.根据权利要求2所述的方法，其特征在于，所述基于所述IP区域，统计不同用户在所述IP区域上，间隔时间内，在相同的所述IP地址上，共同出现的次数，包括：

根据每个IP区域，建立以用户为顶点的无向图；以及

4.根据权利要求3所述的方法，其特征在于，所述对用户进行聚类，得到聚类人群，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于社区发现算法，根据所述权重的大小，对所述无向图中的用户进行聚类，包括：

根据所述权重的大小，将所述无向图分割成多个子图；以及

6.根据权利要求5所述的方法，其特征在于，所述根据所述权重的大小，将所述无向图分割成多个子图，包括：

7.根据权利要求1-6任一项权利要求所述的方法，其特征在于，所述方法还包括：

过滤所述IP地址中的无效IP。

8.根据权利要求7所述的方法，其特征在于，所述过滤所述IP地址中的无效IP，包括：

过滤通过移动网络登录的移动IP；以及

过滤在预设时间内，登录人次大于阈值的公共IP。

9.根据权利要求8所述的方法，其特征在于，在所述对用户进行聚类，得到聚类人群之后，所述方法还包括：

根据所述IP类型，推定所述聚类人群的关系。

10.一种人群聚类系统，其特征在于，所述系统包括：

IP抽取单元，配置用于抽取用户的IP地址及基础数据，所述基础数据包括搜索行为；

共现统计单元，配置用于基于所述IP区域，统计在所述IP区域上，间隔时间内，在相同的所述IP地址上，不同用户共同出现网络行为的次数；以及

用户聚类单元，配置用于根据所述不同用户共同出现网络行为的次数，对用户进行聚类，得到聚类人群。

11.根据权利要求10所述的系统，其特征在于，所述共现统计单元包括：

12.根据权利要求11所述的系统，其特征在于，所述用户聚类单元，还配置用于基于社区发现算法，根据所述权重的大小，对所述无向图中的用户进行聚类，得到聚类人群。

13.根据权利要求12所述的系统，其特征在于，所述用户聚类单元包括：

14.根据权利要求13所述的系统，其特征在于，所述子图分割单元，还配置用于将所述权重相差小的各个所述顶点和所述边，分割到同一子图中；以及

15.根据权利要求10-14任一项权利要求所述的系统，其特征在于，所述系统还包括：

IP过滤单元，配置用于过滤所述IP地址中的无效IP。

16.根据权利要求15所述的系统，其特征在于，所述IP过滤单元包括：

17.根据权利要求16所述的系统，其特征在于，所述系统还包括：

18.一种人群聚类终端，其特征在于，所述终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

19.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一项所述的方法。