CN102750288B

CN102750288B - 一种互联网内容推荐方法及装置

Info

Publication number: CN102750288B
Application number: CN201110101229.0A
Authority: CN
Inventors: 张湛梅; 陈广宇; 屈强; 刘鹏; 杨旭
Original assignee: China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Group Guangdong Co Ltd
Priority date: 2011-04-21
Filing date: 2011-04-21
Publication date: 2015-11-11
Anticipated expiration: 2031-04-21
Also published as: CN102750288A

Abstract

本发明提供一种互联网内容推荐方法及装置。所述互联网内容推荐方法包括：根据客户之间的通信紧密性和/或偏好相似性，从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体；计算所述局部群体对各种互联网内容类型的渗透速度；计算每一对互联网内容类型的相似度；根据所述渗透速度和所述相似度计算所述局部群体所涉及到的互联网内容类型的评分值，所述评分值用于表征客户访问相应互联网内容类型的倾向大小；根据所述评分值产生向所述局部群体中的客户推荐的互联网内容类型。本发明实现了面向群体的互联网内容的推荐，能够显著提高推荐效率。

Description

一种互联网内容推荐方法及装置

技术领域

本发明涉及互联网的数据挖掘技术，特别涉及一种互联网内容推荐方法及装置。

背景技术

现有的互联网内容推荐模式大部分是基于“为业务寻找合适的目标客户”这一出发点，通常是利用关联分析、决策树、神经网络及逻辑回归等数据挖掘算法工具，发现具体业务的目标潜在客户，然后采取短信、彩信或广告等形式向客户推荐业务，以达到精确营销的战略目标。这种推荐模式的结果往往有两个极端：一方面，为某些客户推荐了过多的业务，对客户的接触过于频繁，由于相同的客户被多次接触，客户容易产生反感的情绪，其营销效果可能是适得其反；另一方面，对于有些客户，则从来未尝给他推荐业务。

互联网领域应用广泛的协同过滤技术从客户的角度出发，能够解决上述推荐模式的问题。其原理是根据客户当前使用业务的情况，推算其对未使用业务的偏好程度，从而可以得到客户使用业务的可能性评分值，最后根据评分值的排序可以得出一个业务推荐优先级的列表。

互联网推荐技术中运用最成熟、最有效的两种协同过滤算法是基于用户(User-Based)算法和基于项目(Item-Base)算法，其中User-based协同过滤技术是根据评分相似的最近邻居的评分数据向目标客户产生推荐，而Item-based协同过滤技术依赖于项目的相似度来决定是否推荐。

发明人在实现本发明的过程中，发现现有技术至少存在如下缺点：

无论是User-based算法还是Item-based算法，都是基于客户之间或者业务之间的相似性原理，但并没有考虑客户之间的互相影响作用，这导致了对业务的推荐效率不高。

发明内容

本发明的目的是提供一种互联网内容推荐方法及装置，实现面向群体的互联网内容的推荐，从而提高推荐效率。

为实现上述目的，本发明提供技术方案如下：

一种互联网内容推荐方法，包括：

根据客户之间的通信紧密性和/或偏好相似性，从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体；

计算所述局部群体对各种互联网内容类型的渗透速度；

计算每一对互联网内容类型的相似度；

根据所述渗透速度和所述相似度计算所述局部群体所涉及到的互联网内容类型的评分值，所述评分值用于表征客户访问相应互联网内容类型的倾向大小；

根据所述评分值产生向所述局部群体中的客户推荐的互联网内容类型。

一种互联网内容推荐装置，包括：

局部群体抽取模块，用于根据客户之间的通信紧密性和/或偏好相似性，从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体；

渗透速度计算模块，用于计算所述局部群体对各种互联网内容类型的渗透速度；

相似度计算模块，用于计算每一对互联网内容类型的相似度；

评分值计算模块，用于根据所述渗透速度和所述相似度计算所述局部群体所涉及到的互联网内容类型的评分值，所述评分值用于表征客户访问相应互联网内容类型的倾向大小；

推荐模块，用于根据所述评分值产生向所述局部群体中的客户推荐的互联网内容类型。

与现有技术相比，本发明的有益效果是：

对比于现有的关联规则、协同过滤等推荐技术，本发明的技术方案面向的是紧密联系的、有互相影响作用的群体，具有病毒营销的效应作用，能够显著提高互联网内容的推荐效率。

附图说明

图1为本发明实施例的互联网内容推荐方法流程图；

图2为图1所示的方法中步骤101的具体流程图；

图3为本发明实施例中局部群体的抽取示意图；

图4为本发明实施例的互联网内容推荐装置结构图。

具体实施方式

无论是User-based算法还是Item-based算法，都是基于客户之间或者业务之间的相似性原理，但并没有考虑客户之间的互相影响作用，这导致了对业务的推荐效率不高。实际上，利用客户之间的影响力，推动客户之间互相推荐是提高业务渗透的一个高效手段；另外一方面，这两种技术大部分应用都只针对个人进行推荐，但所谓人以群分，面向紧密联系的群体同时进行同一互联网内容的推荐也是一个很值得推广的方案。

基于此，本发明设计出一种面向群体而非个人的互联网内容推荐技术，并将其融合到一个系统，实现互联网内容的智能适配。本技术方案可命名为基于群体(Group-Base)算法，其思想是在适配时，是同时推向彼此之间有联系、有影响作用的群体。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

参照图1，本发明实施例的互联网内容推荐方法，包括如下步骤：

步骤101：根据客户之间的通信紧密性和/或偏好相似性，从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体；

步骤102：计算所述局部群体对各种互联网内容类型的渗透速度；

步骤103：计算每一对互联网内容类型的相似度；

步骤104：根据所述渗透速度和所述相似度计算所述局部群体所涉及到的互联网内容类型的评分值，所述评分值用于表征客户访问相应互联网内容类型的倾向大小；

步骤105：根据所述评分值产生向所述局部群体中的客户推荐的互联网内容类型。

步骤101的目的是从第一客户与其交往圈所构成的第一群体中抽取一个局部群体，使得所述局部群体中的客户之间具有相互影响力，具体是根据客户之间的通信紧密性和/或偏好相似性进行抽取。

本发明实施例提供如下七种抽取方式。

方式一

从所述第一群体中剔除满足第一预设条件的第二客户，得到所述局部群体，所述第一预设条件为：所述第二客户与所述第一客户之间的通信次数低于第一阈值。

方式二

从所述第一群体中剔除满足第二预设条件的第二客户，得到所述局部群体，所述第二预设条件为：所述第二客户访问的互联网内容类型的集合与所述第一客户访问的互联网内容类型的集合之间不存在交集。

方式三

计算所述第一群体的通信紧密度；

当所述通信紧密度小于或等于第二阈值时，对于所述第一群体中的每个客户，统计与其有通信联系的客户的第一数目；

从所述第一群体中剔除第一数目最小的客户，得到更新后的第一群体；

对更新后的第一群体反复执行上述过程，直到所述通信紧密度大于第二阈值，或者，更新后的第一群体中的客户数目小于或等于第三阈值时，得到所述局部群体；

其中，采用如下公式计算通信紧密度TIGHTNESS：

TIGHTNESS = \frac{E * 2}{V * (V - 1)}

上述公式中，V是第一群体包括的客户数目，E是第一群体中存在通信联系的客户对数。

方式四

为方式一与方式二的结合，即：先从所述第一群体中剔除满足第一预设条件的第二客户，得到更新后的第一群体，然后，再从更新后的第一群体中剔除满足第二预设条件的第二客户，得到所述局部群体；或者，先从所述第一群体中剔除满足第二预设条件的第二客户，得到更新后的第一群体，然后，再从更新后的第一群体中剔除满足第一预设条件的第二客户，得到所述局部群体。

方式五

为方式一与方式三的结合，即：先从所述第一群体中剔除满足第一预设条件的第二客户，得到更新后的第一群体，然后，再根据通信紧密度对更新后的第一群体进行消减，得到所述局部群体。

方式六

为方式二与方式三的结合，即：先从所述第一群体中剔除满足第二预设条件的第二客户，得到更新后的第一群体，然后，再根据通信紧密度对更新后的第一群体进行消减，得到所述局部群体。

方式七

为方式三与方式四的结合，参照图2，具体包括如下步骤：

步骤201：抽取第一客户的通信信息，根据所述通信信息得到第一客户的交往圈信息，由所述第一客户和其交往圈中的客户构成第一群体；

步骤202：抽取所述第一群体中所有客户的通信信息和互联网访问内容(网络日志)信息；

步骤201和步骤202中，可以仅抽取一段时间的通信信息和互联网访问内容信息。以下所述都是以抽取最近三个月的信息为例。

步骤203：从所述第一群体中剔除满足第一预设条件的第二客户，得到第二群体；

所述第一预设条件为：所述第二客户与所述第一客户之间的通信次数低于第一阈值。

如果第一客户与其联系人最近三月的相互主动联系次数低于第一阈值(取全网每对客户的相互主动联系次数的平均值，推荐值为9)，则将这个联系人从所述第一群体中剔除。这一步是考虑到如果双方互相联系不频繁，则双方相互的影响力一般较弱，推荐信息的流通性较差。

步骤204：从所述第二群体中剔除满足第二预设条件的第二客户，得到第三群体；

所述第二预设条件为：所述第二客户访问的互联网内容类型的集合与所述第一客户访问的互联网内容类型的集合之间不存在交集。

这一步是考虑到如果双方最近三月内没有使用相同的业务(如飞信、手机邮箱等)，或者是没有访问类型一致的内容(如网站、网页等)，则双方的偏好不相似，相互之间的影响力也会较弱。

步骤205：计算所述第三群体的通信紧密度；

采用如下公式计算通信紧密度TIGHTNESS：

TIGHTNESS = \frac{E * 2}{V * (V - 1)}

上述公式中，V是第三群体包括的客户数目，E是第三群体中存在通信联系的客户对数。

步骤206：判断所述通信紧密度是否大于第二阈值，若是，进入步骤210，否则，进入步骤207；

步骤207：判断所述第三群体中的客户数目是否大于第三阈值，若是，进入步骤208，否则，进入步骤210；

步骤208：对于所述第三群体中的每个客户，统计与其有通信联系的客户的第一数目；

步骤209：从所述第三群体中剔除第一数目最小的客户，得到更新后的第三群体，返回步骤205；

步骤210：将所述第三群体作为所述局部群体输出。

步骤205中的通信紧密度公式是利用几何上的局部网络密度来进行表征的。如图3所示，假设客户A的交往圈中有4个客户B1～B4，则V＝5，存在通信联系的客户对数E＝8，此时TIGHTNESS＝0.8，如果设置的第二阈值为0.9，则此群体不符合条件，剔除连边最少的客户B1后，其密度达到最大，即TIGHTNESS＝1，客户A的交往圈经过优选后剩下一个局部联系紧密的群体，该群体中包括的客户为：A、B2、B3、B4。

步骤102是根据局部群体中客户访问互联网的信息，来评估所述局部群体对不同互联网内容的渗透速度。本发明实施例提供如下三种计算渗透速度的方法。

方法一

按照如下公式计算局部群体对各种互联网内容类型的渗透速度：

SPEED (site) = \frac{Rate}{LastTime - FirstTime}

其中，SPEED(site)是所述局部群体对互联网内容类型site的渗透速度，Rate是所述局部群体中访问互联网内容类型site的客户数占比，FirstTime是所述局部群体中第一个访问互联网内容类型site的客户的第一次访问时间，LastTime是所述局部群体中最后一个访问互联网内容类型site的客户的第一次访问时间。此公式的含义是表示一个网站在一个群体中普及到一定比例需要花费的时间。

接上例，如果客户A、B2、B3最近三个月均访问了当当网，客户B4最近三个月没有访问当当网，则Rate＝3/4＝0.75，假设客户A第一次访问当当网的时间最早，客户B2第一次访问当当网的时间最晚，其时间间隔是10天，则有：SPEED(当当网)＝0.75/10＝0.075。

方法二

所述计算所述局部群体对各种互联网内容类型的渗透速度，具体包括：计算所述局部群体中访问第一互联网内容类型的客户数占比，将所述客户数占比作为所述局部群体对所述第一互联网内容类型的渗透速度。

方法三

所述计算所述局部群体对各种互联网内容类型的渗透速度，具体包括：

统计所述局部群体中的客户对第一互联网内容类型的访问次数(指所有客户的访问次数的总和)；

计算所述访问次数与所述局部群体中的客户数的比值，将计算得到的比值作为所述局部群体对所述第一互联网内容类型的渗透速度。

步骤103的目的是根据全网客户的互联网访问内容信息，来计算每一对互联网内容类型的相似度。如何计算互联网内容类型的相似度，现有技术中提供了多种方法。

本发明除了可以采用现有技术的相似度计算方法之外，还提供了如下的计算方法，即按照如下公式计算互联网内容类型i与互联网内容类型j的相似度sim(i，j)：

sim (i, j) = \frac{\underset{&ForAll; q : R_{qj} > 0}{Σ} R_{qj}}{Freq (i) * {(Freq (j))}^{a}}

其中，R_qj是客户q对互联网内容类型j的归一化值，即客户q访问的包括互联网内容类型j的互联网内容类型数目的倒数，Freq(i)是访问互联网内容类型i的客户数目，Freq(j)是访问互联网内容类型j的客户数目，0＜α＜1。

这个相似度公式与关联规则中的置信度的两个区别在于：在分母增加了右变量(互联网内容类型j的使用人数)的α次方(0＜α＜1，优选为0.4＜α＜0.6)，减弱右变量使用人数较多时候的作用；另外一方面在于分子，代替置信度时右变量的频次，这里采用客户对互联网内容类型的归一化值，思想在于，使用互联网内容类型数量少的客户，对于置信度和相似度贡献率应该比较高。

例如，对于当当网和卓越网，假设访问互联网内容类型i＝当当网的客户有A、B2、B3，而同时客户A与客户B2也访问了互联网内容类型j＝卓越网客户A还访问了互联网内容类型f＝淘宝网，则Freq(卓越网)＝2，Freq(当当网)＝3，Freq(淘宝网)＝1，假设阈值α＝0.5，则：

sim(卓越网，淘宝网)＝(1/3+0+0)/(2*1)＝0.167

在步骤104中，可以按照如下公式计算局部群体u中互联网内容类型s的评分值P_us：

P_{us} = \frac{\underset{d &Element; l_{s}}{Σ} SPEED (d) * sim (s, d)}{\underset{d &Element; l_{s}}{Σ} sim (s, d)}

其中，l_s是互联网内容类型s的相似互联网内容类型集合，SPEED(d)是局部群体u对互联网内容类型d的渗透速度，sim(s，d)是互联网内容类型s与互联网内容类型d的相似度。

其中，互联网内容类型s的相似互联网内容类型集合为：

与互联网内容类型s的相似度大于第四阈值的互联网内容类型构成的集合；或者

按照与互联网内容类型s的相似度从大到小的顺序选取的第一预定数目个互联网内容类型构成的集合。

接上例，由于淘宝网只有一个人使用，则其渗透速度无意义，设为SPEED(淘宝网)＝0；假设互联网内容类型s＝卓越网，其相似业务集l_s＝{当当网，淘宝网}，则其评分值为：

P_us＝(SPEED(当当网)*sim(卓越网，当当网)+SPEED(淘宝网)*sim(卓越网，淘宝网))/(sim(卓越网，当当网)+sim(卓越网，淘宝网))＝(0.075*0.529+0*0.167)/(0.529+0.167)＝0.057。

在得到局部群体中每个互联网内容类型的评分值后，就可以根据所述评分值产生向所述局部群体中的客户推荐的互联网内容类型。本发明实施例提供如下的两种推荐方式：

方式一

将评分值大于第五阈值的互联网内容类型作为向所述局部群体中的客户推荐的互联网内容类型。

方式二

将按照评分值从大到小的顺序选取的第二预定数目个互联网内容类型作为向所述局部群体中的客户推荐的互联网内容类型。

以下给出利用本发明实施例的上述方法进行互联网内容类型推荐的一个具体实现，包括如下步骤：

步骤S1、对于每一个局部群体，获取其互联网内容类型优先级列表，以第一个内容为营销首推项；

互联网内容类型优先级列表的表项为互联网内容类型，并按照评分值从大到小的顺序排序。

步骤S2、对于互联网内容类型优先级列表中的每一个互联网内容类型，建立推荐对象列表，若其中某客户最近已经访问过该互联网内容类型，则将该客户从推荐对象列表中剔除。

步骤S3、若该互联网内容类型已被局部群体中的每一个客户访问过，即推荐对象列表为空，则将该互联网内容类型从互联网内容类型优先级列表剔除，回到步骤S1，重新选择首推项。

步骤S4、反复执行上述过程后，若互联网内容类型优先级列表为空，则本次没有产生用于向该局部群体推荐的互联网内容类型。

步骤S5、若没有发生步骤S4的情况，即当前局部群体有推荐内容，则放入运营商的营销管理平台，配置作业进行推荐。例如，建议进行事件营销，如上班时间段，客户频繁出现的地铁站、公车站，或者是晚间客户频繁上网的时机，进行实时推荐。

对应于上述互联网内容推荐方法，本发明实施例还提供一种互联网内容推荐装置，参照图4，该互联网内容类型推荐装置包括：

局部群体抽取模块10，用于根据客户之间的通信紧密性和/或偏好相似性，从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体；

渗透速度计算模块20，用于计算所述局部群体对各种互联网内容类型的渗透速度；

相似度计算模块30，用于计算每一对互联网内容类型的相似度；

评分值计算模块40，用于根据所述渗透速度和所述相似度计算所述局部群体所涉及到的互联网内容类型的评分值，所述评分值用于表征客户访问相应互联网内容类型的倾向大小；

推荐模块50，用于根据所述评分值产生向所述局部群体中的客户推荐的互联网内容类型。

上述各模块的具体功能和工作流程请参见上述方法实施例，这里不作赘述。

综上所述，对比于现有的关联规则、协同过滤等推荐技术，本发明的技术方案面向的是紧密联系的、有互相影响作用的群体，具有病毒营销的效应作用，能够显著提高互联网内容的推荐效率。

对比于传统的推荐模式，本发明的技术方案所能带来的效益具体如下：

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非限制，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种互联网内容推荐方法，其特征在于，包括：

根据客户之间的通信紧密性和/或偏好相似性，从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体，包括：从所述第一群体中剔除满足预设条件的第二客户，得到所述局部群体，所述预设条件为：所述第二客户与所述第一客户之间的通信次数低于第一阈值；和/或所述第二客户访问的互联网内容类型的集合与所述第一客户访问的互联网内容类型的集合之间不存在交集；

计算所述局部群体对各种互联网内容类型的渗透速度，包括：按照公式计算所述局部群体对各种互联网内容类型的渗透速度，其中，SPEED(site)是所述局部群体对互联网内容类型site的渗透速度，Rate是所述局部群体中访问互联网内容类型site的客户数占比，FirstTime是所述局部群体中第一个访问互联网内容类型site的客户的第一次访问时间，LastTime是所述局部群体中最后一个访问互联网内容类型site的客户的第一次访问时间；

或者，计算所述局部群体中访问第一互联网内容类型的客户数占比，将所述客户数占比作为所述局部群体对所述第一互联网内容类型的渗透速度；

或者，统计所述局部群体中的客户对第一互联网内容类型的访问次数；计算所述访问次数与所述局部群体中的客户数的比值，将计算得到的比值作为所述局部群体对所述第一互联网内容类型的渗透速度；

计算每一对互联网内容类型的相似度；

2.如权利要求1所述的互联网内容推荐方法，其特征在于，所述从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体，具体包括：

步骤a1，计算所述第一群体的通信紧密度；

步骤a2，当所述通信紧密度小于或等于第二阈值时，对于所述第一群体中的每个客户，统计与其有通信联系的客户的第一数目；

步骤a3，从所述第一群体中剔除第一数目最小的客户，得到更新后的第一群体；

对更新后的第一群体反复执行步骤a1～步骤a3，直到所述通信紧密度大于第二阈值，或者，更新后的第一群体中的客户数目小于或等于第三阈值时，得到所述局部群体；

其中，采用如下公式计算通信紧密度TIGHTNESS：

TIGHTNESS = \frac{E * 2}{V * (V - 1)}

3.如权利要求1所述的互联网内容推荐方法，其特征在于，

所述从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体，具体包括：

步骤b1，计算第二群体的通信紧密度；

步骤b2，当所述通信紧密度小于或等于第二阈值时，对于所述第二群体中的每个客户，统计与其有通信联系的客户的第一数目；

步骤b3，从所述第二群体中剔除第一数目最小的客户，得到更新后的第二群体；

对更新后的第二群体反复执行步骤b1～步骤b3，直到所述通信紧密度大于第二阈值，或者，更新后的第二群体中的客户数目小于或等于第三阈值时，得到所述局部群体；

其中，采用如下公式计算通信紧密度TIGHTNESS：

TIGHTNESS = \frac{E * 2}{V * (V - 1)}

上述公式中，V是第二群体包括的客户数目，E是第二群体中存在通信联系的客户对数。

4.如权利要求1所述的互联网内容推荐方法，其特征在于，按照如下公式计算互联网内容类型i与互联网内容类型j的相似度sim(i,j)：

sim (i, j) = \frac{\underset{&ForAll; q : R_{qj} > 0}{Σ} R_{qj}}{Freq (i) * {(Freq (j))}^{a}}

其中，R_qj是客户q访问的包括互联网内容类型j的互联网内容类型数目的倒数，Freq(i)是访问互联网内容类型i的客户数目，Freq(j)是访问互联网内容类型j的客户数目，0＜a＜1。

5.如权利要求1所述的互联网内容推荐方法，其特征在于，按照如下公式计算局部群体u中互联网内容类型s的评分值P_us：

P_{us} = \frac{\underset{d &Element; l_{s}}{Σ} SPEED (d) * sim (s, d)}{\underset{d &Element; l_{s}}{Σ} sim (s, d)}

其中，l_s是互联网内容类型s的相似互联网内容类型集合，SPEED(d)是局部群体u对互联网内容类型d的渗透速度，sim(s,d)是互联网内容类型s与互联网内容类型d的相似度。

6.如权利要求5所述的互联网内容推荐方法，其特征在于，互联网内容类型s的相似互联网内容类型集合为：

7.如权利要求1所述的互联网内容推荐方法，其特征在于，所述根据所述评分值产生向所述局部群体中的客户推荐的互联网内容类型，具体包括：

将评分值大于第五阈值的互联网内容类型作为向所述局部群体中的客户推荐的互联网内容类型；或者

8.一种互联网内容推荐装置，其特征在于，包括：

局部群体抽取模块，用于根据客户之间的通信紧密性和/或偏好相似性，从第一客户与其交往圈所构成的第一群体中抽取一个包括所述第一客户的局部群体，包括从所述第一群体中剔除满足预设条件的第二客户，得到所述局部群体；所述预设条件为：所述第二客户与所述第一客户之间的通信次数低于第一阈值；和/或所述第二客户访问的互联网内容类型的集合与所述第一客户访问的互联网内容类型的集合之间不存在交集；

渗透速度计算模块，用于计算所述局部群体对各种互联网内容类型的渗透速度；进一步用于按照公式计算所述局部群体对各种互联网内容类型的渗透速度：其中，SPEED(site)是所述局部群体对互联网内容类型site的渗透速度，Rate是所述局部群体中访问互联网内容类型site的客户数占比，FirstTime是所述局部群体中第一个访问互联网内容类型site的客户的第一次访问时间，LastTime是所述局部群体中最后一个访问互联网内容类型site的客户的第一次访问时间；

9.如权利要求8所述的互联网内容推荐装置，其特征在于，所述局部群体抽取模块进一步用于：

步骤c1，计算所述第一群体的通信紧密度；

步骤c2，当所述通信紧密度小于或等于第二阈值时，对于所述第一群体中的每个客户，统计与其有通信联系的客户的第一数目；

步骤c3，从所述第一群体中剔除第一数目最小的客户，得到更新后的第一群体；

对更新后的第一群体反复执行步骤c1～步骤c3，直到所述通信紧密度大于第二阈值，或者，更新后的第一群体中的客户数目小于或等于第三阈值时，得到所述局部群体；

其中，采用如下公式计算通信紧密度TIGHTNESS：

TIGHTNESS = \frac{E * 2}{V * (V - 1)}

10.如权利要求8所述的互联网内容推荐装置，其特征在于，所述局部群体抽取模块进一步用于：

步骤d1，计算第二群体的通信紧密度；

步骤d2，当所述通信紧密度小于或等于第二阈值时，对于所述第二群体中的每个客户，统计与其有通信联系的客户的第一数目；

步骤d3，从所述第二群体中剔除第一数目最小的客户，得到更新后的第二群体；

对更新后的第二群体反复执行步骤d1～步骤d3，直到所述通信紧密度大于第二阈值，或者，更新后的第二群体中的客户数目小于或等于第三阈值时，得到所述局部群体；

其中，采用如下公式计算通信紧密度TIGHTNESS：

TIGHTNESS = \frac{E * 2}{V * (V - 1)}

11.如权利要求8所述的互联网内容推荐装置，其特征在于，所述相似度计算模块进一步用于，按照如下公式计算互联网内容类型i与互联网内容类型j的相似度sim(i,j)：

sim (i, j) = \frac{\underset{&ForAll; q : R_{qj} > 0}{Σ} R_{qj}}{Freq (i) * {(Freq (j))}^{a}}

12.如权利要求8所述的互联网内容推荐装置，其特征在于，所述评分值计算模块进一步用于，按照如下公式计算局部群体u中互联网内容类型s的评分值P_us：

P_{us} = \frac{\underset{d &Element; l_{s}}{Σ} SPEED (d) * sim (s, d)}{\underset{d &Element; l_{s}}{Σ} sim (s, d)}

13.如权利要求12所述的互联网内容推荐装置，其特征在于，互联网内容类型s的相似互联网内容类型集合为：

14.如权利要求8所述的互联网内容推荐装置，其特征在于，所述推荐模块进一步用于：