CN104462156A

CN104462156A - 一种基于用户行为的特征提取、个性化推荐方法和系统

Info

Publication number: CN104462156A
Application number: CN201310447654.4A
Authority: CN
Inventors: 乔平; 吴鸣刚
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-09-25
Filing date: 2013-09-25
Publication date: 2015-03-25
Anticipated expiration: 2033-09-25
Also published as: ES2811704T3; JP6511455B2; TW201513019A; EP3049912B1; US20150088911A1; EP3049912A2; JP2016536725A; EP3049912A4; US10178190B2; CN104462156B; WO2015048171A2; WO2015048171A3

Abstract

本申请实施例提供了一种基于用户行为的特征提取方法，包括：获取用户访问网页的点击流数据；依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度；提取与当前用户访问网页的路径相关度最高的前X个用户；其中，所述X为正整数；针对所述前X个用户访问的网页的预置标签配置综合权重；采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。本申请基于点击流数据，构建用户访问网页的点击路径的带权重的有向图模型，将用户的相关度计算首先转换为带权重有向图的相似度计算，并引入网页标签库，融合网页标签内容的相关度计算，从中挖掘用户的点击习惯与个性化行为偏好，从而提高用户聚类准确率与效率。

Description

一种基于用户行为的特征提取、个性化推荐方法和系统

技术领域

本申请实施例涉及数据处理技术领域，特别是涉及一种基于用户行为的特征提取方法、一种基于用户行为特征提取的系统、一种基于用户行为的个性化推荐方法和一种基于用户行为的个性化推荐系统。

背景技术

因特网Internet的迅猛发展将人们带入了信息社会和网络经济时代，对企业的发展和个人生活都产生了深刻的影响。同时，过量的信息使得人们无法高效地从中获取自己需要的部分，信息的使用效率反而降低。

以电子商务（ElectronicCommerce）为例，电子商务是在Internet开放的网络环境下，基于浏览器/服务器应用方式，实现消费者的网上购物、商户之间的网上交易和在线电子支付的一种新型的商业运营模式。随着Internet的爆发式发展，电子商务越加繁荣。由于供应链和物流的发展，商家能够在网上提供的商品种类和数量非常多，反而大大增加了消费者购物的时间成本，降低了电子商务平台的商品购买率。显然，用户既不愿意花费太多时间在漫无边际的网上寻找商品，也不可能像在现实生活中那样检查商品的质量。而是希望根据自身的兴趣爱好自动获取系统推荐的而且会感到满意的商品。因此根据不同的用户特征，进行个性化推荐，或者把用户划分为不同的群组，进行有针对性的服务，是当前的应用热点之一。

现有技术中，用户聚类多是基于网页点击序列距离的用户访问路径或者用户搜索关键词，用户访问一般是多次的、间断的，每一次访问的点击路径不可能完全一样，现有技术并不能很好地综合衡量用户的多次访问带来的差异，用户聚类的效果差，从而导致服务效率低下。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：提供一种用户个性化服务推荐机制，可以准确地度量用户之间的相关性，形成一个有效准确的用户群，分别进行针对性的服务，提高服务的效率。

发明内容

本申请实施例所要解决的技术问题是提供一种基于用户行为的特征提取方法和一种基于用户行为的个性化推荐方法，用以准确地度量用户之间的相关性，形成一个有效准确的用户群，分别进行针对性的服务，提高服务的效率。

相应的，本申请实施例还提供了一种基于用户行为的特征提取系统和一种基于用户行为的个性化推荐系统，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种基于用户行为的特征提取方法，包括：

获取用户访问网页的点击流数据；

依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度；

提取与当前用户访问网页的路径相关度最高的前X个用户；其中，所述X为正整数；

针对所述前X个用户访问的网页的预置标签配置综合权重；

采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。

优选地，所述点击流数据具有多条，每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间；所述依据所述点击流数据计算当前用户与其他用户访问所述网站的路径相关度的步骤包括：

将所述用户的多条点击流数据划分为一个或多个会话；所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值；

在每个会话中，采用所述当前网页及其来源网页建立点击流路径树；所述点击流路径树包括节点和路径，所述节点为当前网页，所述路径指示所述当前网页及其来源网页；

合并点击流路径树，以及，按照平均停留时间为合并后的节点配置分级权重，按照浏览量pυ数为合并后的路径配置比例权重，生成权重-有向图；其中，所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比；所述比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比；

提取与当前用户的公共路径最多的前Y个用户；其中，Y为正整数，所述公共路径为当前网页及其来源网页相同的路径；

采用所述权重-有向图，计算当前用户与所述前Y个用户访问网页的路径相关度。

优选地，所述节点包括根节点和子节点，所述在每个会话中，采用所述当前网页及其来源网页建立点击流路径树的步骤包括：

采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页，直至满足预设条件；

当匹配成功时，将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点；

当匹配失败时，以当前点击流数据的当前网页作为根节点建立新的点击流路径树；

其中，所述预设条件包括：

匹配次数大于预设匹配阈值；

和/或，

当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。

优选地，所述在每个会话中，采用所述当前网页及其来源网页建立点击流路径树的步骤还包括：

去除孤点；所述孤点为只有一个节点的点击流路径树。

优选地，所述按照平均停留时间为合并后的节点配置访问分级权重的步骤包括：

将所述节点按照平均停留时间排序后划分多个区间；

为每个区间配置对应的访问分级权重。

优选地，所述权重-有向图包括：

U={...,＜u_i,λ_i＞,...,＜u_j,λ_j＞,...}

其中，＜u_i,λ_i＞为用户对网页u_i的点击情况，u_i为当前访问网页，λ_i为分级权重；

和，

T={...,＜u_i,u_j,δ_ij＞,...,＜u_i,u_k,δ_ik＞,...}

其中，＜u_i,u_j,δ_ij＞为用户从网页u_j点击到网页u_i的一个点击流向，u_i为当前网页，u_j为来源网页，δ_ij为比例权重。

优选地，通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度：

其中，所述公共路径的最小权值=所述公共路径的比例权重的最小值×所述公共路径指示的当前网页的分级权重的最小值×所述公共路径指示的来源网页的分级权重的最小值；

所述公共路径的最大权值=所述公共路径的比例权重的最大值×所述公共路径指示的当前网页的分级权重的最大值×所述公共路径指示的来源网页的分级权重的最大值；

所述非公共路径的权值=所述非公共路径的比例权重×所述非公共路径指示的当前网页的分级权重×所述非公共路径指示的来源网页的分级权重。

优选地，所述网页具有网页权重，所述预置标签具有原始权重，所述综合权重通过以下公式获取：

\overset{&RightArrow;}{w} = Σ_{i = 0}^{σk} (w_{i} \times {p&upsi;}_{i} {wp}_{i}) / Σ_{i = 0}^{σk} {p&upsi;}_{i}

其中，为所述预置标签的综合权重，σk为出现所述预置标签的网页的数量，w_i为所述网页的网页权重，pυ_i为所述网页的总浏览量，wp_i为所述预置标签在所述网页中的原始权重。

优选地，所述当前用户与所述前X个用户之间的相关度通过以下公式获取：

其中，Sim(i,j)为用户i和用户j的相关度，σ为标签，为所述标签的综合权重。

本申请实施例还公开了一种基于用户行为的个性化推荐方法，包括：

获取用户信息，所述用户信息包括用户标识；

根据所述用户标识确定与当前用户的相似度最高的Z个用户；其中，所述Z为正整数；

针对所述Z个用户向当前用户进行推荐；

其中，所述相似度通过如下方式生成：

获取用户访问网页的点击流数据；

针对所述前X个用户访问的网页的预置标签配置综合权重；

本申请实施例还公开了一种基于用户行为的特征提取系统，包括：

点击流数据获取模块，用于获取用户访问网页的点击流数据；

路径相关度计算模块，用于依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度；

第一提取模块，用于提取与当前用户访问网页的路径相关度最高的前X个用户；其中，所述X为正整数；

综合权重配置模块，用于针对所述前X个用户访问的网页的预置标签配置综合权重；

用户相关度计算模块，用于采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。

优选地，所述点击流数据具有多条，每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间；所述路径相关度计算模块包括：

会话划分子模块，用于将所述用户的多条点击流数据划分为一个或多个会话；所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值；

点击流路径树建立子模块，用于在每个会话中，采用所述当前网页及其来源网页建立点击流路径树；所述点击流路径树包括节点和路径，所述节点为当前网页，所述路径指示所述当前网页及其来源网页；

点击流路路径树合并子模块，用于合并点击流路径树；

分级权重配置子模块，用于按照平均停留时间为合并后的节点配置分级权重；

比例权重配置子模块，用于为合并后的路径配置比例权重；

权重-有向图生成子模块，用于生成权重-有向图；其中，所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比；所述访问比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比；

第二提取子模块，用于提取与当前用户的公共路径最多的前Y个用户；其中，Y为正整数，所述公共路径为当前网页及其来源网页相同的路径；

计算子模块，用于采用所述权重-有向图，计算当前用户与所述前Y个用户访问网页的路径相关度。

优选地，所述节点包括根节点和子节点，所述点击流路径树建立子模块包括：

匹配子模块，用于采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页，直至满足预设条件；

当匹配成功时，调用子节点连接子模块；当匹配失败时，调用根节点建立子模块；

子节点连接子模块，用于将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点；

根节点建立子模块，用于以当前点击流数据的当前网页作为根节点建立新的点击流路径树；

其中，所述预设条件包括：

匹配次数大于预设匹配阈值；

和/或，

优选地，所述点击流路径树建立子模块还包括：

孤点去除子模块，用于去除孤点；所述孤点为只有一个节点的点击流路径树。

优选地，所述分级权重配置子模块包括：

区间划分子模块，用于将所述节点按照平均停留时间排序后划分多个区间；

区间配置子模块，为每个区间配置对应的访问分级权重。

优选地，所述权重-有向图包括：

U={...,＜u_i,λ_i＞,...,＜u_j,λ_j＞,...}

其中，＜u_i,λ_i＞为用户对网页u_i的点击情况，u_i为访问网页，λ_i为分级权重；

和，

T={...,＜u_i,u_j,δ_ij＞,...,＜u_i,u_k,δ_ik＞,...}

其中，＜u_i,u_j,δ_ij＞为用户从网页u_j点击到网页u_i的一个点击流向，u_i为访问网页，u_j为来源网页，δ_ij为比例权重。

优选地，所述标签具有原始权重，所述综合权重通过以下公式获取：

\overset{&RightArrow;}{w} = Σ_{i = 0}^{σk} (w_{i} \times {p&upsi;}_{i} {wp}_{i}) / Σ_{i = 0}^{σk} {p&upsi;}_{i}

其中，Sim(i,j)为用户i和用户j的相关度σ为标签，为所述标签的综合权重。

本申请实施例还公开了一种基于用户行为的个性化推荐系统，包括：

用户信息获取模块，用于获取用户信息，所述用户信息包括用户标识；

用户确定模块，用于根据所述用户标识确定与当前用户的相似度最高的Z个用户；其中，所述Z为正整数；

推荐模块，用于针对所述Z个用户向当前用户进行推荐；

其中，所述相似度通过如下方式生成：

获取用户访问网页的点击流数据；

针对所述前X个用户访问的网页的预置标签配置综合权重；

与背景技术相比，本申请实施例包括以下优点：

本申请基于点击流数据，构建用户访问网页的点击路径的带权重的有向图模型，将用户的相关度计算首先转换为带权重有向图的相似度计算，并引入网页标签库，融合网页标签内容的相关度计算，从中挖掘用户的点击习惯与个性化行为偏好，从而提高用户聚类准确率与效率。基于此用户聚类进行推荐，提高了推荐的成功率与效率。

本申请通过为点击流路径树的节点配置分级权重，减少了阅读差异的影响，通过为点击流路径树的路径配置比例权重和通过为网页标签配置综合权重，提高了表达用户个性化的准确性。

本申请提取公共路径最多的前Y个用户计算用户的访问网页相关度，在提取访问网页相关度最高的前X个用户计算用户的相关度，最后提取用户相关度最高的前Z个用户进行推荐，通过层级选取具有代表性的数据作为候选集进行计算，提高了计算的准确性，减少了数据处理量，减少了系统资源的占用。

本申请将用户聚类群体事先配置到用户信息中，当用户进行访问的时候，获取用户标识后可以直接获取用户对应的推荐信息，节省了系统资源和提高了个性化推荐的效率。

附图说明

图1是本申请的一种基于用户行为的特征提取方法实施例的步骤流程图；

图2是本申请中会话S1的一种点击流路径树示例图；

图3是本申请中会话S2的一种点击流路径树合并示例图；

图4是本申请中会话S1的一种有向-权重图；

图5是本申请中会话S3的一种有向-权重图；

图6是本申请的一种基于用户行为的个性化推荐方法实施例的步骤流程图；

图7是本申请的一种基于用户行为的特征提取系统实施例的结构框图；

图8是本申请的一种基于用户行为的个性化推荐系统实施例的结构框图。

具体实施方式

为使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

参照图1，示出了本申请的一种基于用户行为的特征提取方法实施例的步骤流程图，本申请实施例可以包括如下步骤：

步骤101，获取用户访问网页的点击流数据；

需要说明的是，点击流数据（clickstream data）可以来源于网站日志，网站日志可以记录用户浏览网页的行为信息，而点击流则可以用于表达用户浏览网页的轨迹。当然，用户访问的网页可以是同一个网站的，也可以是不同网站的，例如不同网站进行跨平台服务，本申请实施例对此不加以限制。

在具体应用中，点击流数据可以为Apache服务器产生的网站日志，可以抓取一段或多段时间的原始点击流数据。具体可以包括用户访问的IP地址、当前网页ENTRY、当前网页的来源网页REFERER、访问当前网页的点击时间、HTTP代码、HTTP流量、HTTP响应时间、浏览器特征AGENT、用户访问唯一标识COOKIE ID等信息。

具体示例如下：

服务器负责收集用户访问网站点击的日志记录，可以以一定间隔周期从日志采集服务器获取用户的点击流日志，例如间隔周期可以是实时、按小时或者按天计算等等。

很多情况下，用户在访问网站时可能会使用后退、页面切换、返回主页或者直接点击某个链接等操作，即用户的访问路径可以是随意的、无序的。

获取用户访问网页的原始点击流数据后，可以进行预处理，输出每个用户的结构化的点击流数据Ψ＝{V₁,V₂,...,V_i...,V_Ψn}。其中，当前共有Ψn个用户，V_i为第i个用户的点击流数据。

预处理可以包括对原始点击流数据进行清洗，过滤乱码、公司内部访问等无效日志等等。

结构化的点击流数据可以包括，用户标识、当前网页、来源网页、点击时间和停留时间等等。

具体示例如下：

需要说明的是，用户标识可以为用户的IP地址，和/或，COOKIE ID，和/或，AGENT等等，只要能标识用户即可，本申请实施例对此不加以限制。当前网页为用户在某次访问中访问的网页，来源网页为该当前网页的来源，例如用户从A网页点击一个链接跳转到B网页，对于访问B网页此次访问而言，B网页为当前网页，A网页为来源网页，特别地，当用户直接输入链接访问网页时，该当前网页的来源网页可以为空。点击时间为访问当前网页的时间。停留时间为访问当前网页的浏览时长。

步骤102，依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度；

需要说明的是，访问网页的路径，即用户浏览网页的轨迹，可以在一定程度反映用户的行为偏好；相关度，即相关性或相似度，表达相关程度；访问网页的路径相关度高的用户具有相同的兴趣爱好的几率相对较高。

在实际应用中，所述点击流数据可以具有多条，每一条点击流数据可以包括用户标识、当前网页、来源网页、点击时间和停留时间。

步骤102具体可以包括如下子步骤：

子步骤S11，将所述用户的多条点击流数据划分为一个或多个会话；所述会话中按点击时间排序后相邻的点击流数据的点击时间之差小于或等于第一预设时间阈值；

在具体实现中，可以将点击流数据按照点击时间排序，当连续两条点击流数据之间的点击时间之差小于或等于第一预设时间阈值时，可以认为归属于同一个会话。

划分会话后的点击流数据的表达可以为：

ζ＝{l₁,l₂,...,l_i...,l_ζn}

其中，用户ζ的点击流数据划分为ζn个会话，l_i为第i个会话，其中，ζn和i均为正整数。

在本申请实施例的一种优选示例中，第一预设时间阈值为30分钟。

子步骤S12，在每个会话中，采用所述当前网页及其来源网页建立点击流路径树；所述点击流路径树包括节点和路径，所述节点为当前网页，所述路径指示所述当前网页及其来源网页；

点击流路径树，可以是对用户访问网页轨迹的表达。

在本申请实施例的一种优选示例中，所述节点可以包括根节点和子节点，子步骤S12进一步可以包括如下子步骤：

子步骤S121，采用当前点击流数据的来源网页匹配点击时间更早的点击流数据的当前网页，直至满足预设条件；当匹配成功时，执行子步骤S122；当匹配失败时，执行子步骤S123；

需要说明的是，匹配需要遵循两个原则，其中一个是：用户当前点击的来源网页REFERRER等于上一次浏览点击的当前网页ENTRY的匹配原则。

在实际应用中，可以将多条点击流数据按照点击时间顺序排序，从首条点击流数据（即点击时间最早的点击流数据）开始，往上匹配其他点击流数据（即点击时间更早的点击流数据），直至匹配到会话的第一条点击流数据为止。

当前网页和来源网页均可以为URL（Universal Resource Locator，统一资源定位符），URL的长度不一，在匹配时可以通过生成特征串进行匹配的方式提升匹配过程的性能，减少常驻内存。

具体而言，当URL的长度小于或等于16个字符时，可以直接采用URL进行匹配；

当URL的长度大于16个字符时，可以采用MD5（Message-DigestAlgorithm5，消息摘要算法第五版）算法，针对该URL生成16个字符的特征串，再采用特征串进行匹配。

例如，URL为：

http://sale.suning.com/images/advertise/zyn/130722jiuyang/index.html?utm_source=union&utm_medium=C&utm_campaign=1028&utm_content=1027

通过MD5算法，生成16位特征串：B11A4C0B627B8FE4。

当然，上述特征串生成的方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它特征串生成的方式，本申请实施例对此不加以限制。

另外一个原则是：匹配就近原则，按时间排序，取回溯遍历中最近的一次成功匹配；

例如，在会话S1中，用户访问网页A，停留5秒钟，接着从网页A点击到网页B，停留2秒钟，再从网页B点击到网页C，停留3秒钟，接着从网页C点击到网页E，停留7秒钟，后又从网页B点击到网页D，停留3秒钟，再从网页D点击到网页C，停留1秒钟，再从网页C点击到网页E，停留5秒钟。

上述点击流数据均在同一个会话中，按照用户实际的点击轨迹可以表示为：A→B→C①→E①→D→C②→E②。其中，C①、C②分别指示第一次、第二次访问网页C，E①、E②分别指示第一次、第二次访问网页E。

采用E②向上匹配，可以匹配到C①和C②，但是C②的点击时间离E②最近的，那么，C②才是匹配成功的。

子步骤S122，将当前点击流数据的当前网页作为匹配成功的点击流数据的当前网页的子节点；

相对而言，可以称匹配成功的当前网页为该子节点的父节点。

在匹配成功父节点和子节点的同时，指示所述当前网页（子节点）及其来源网页（父节点），即指示访问轨迹的路径，也会出现。

子步骤S123，以当前点击流数据的当前网页作为根节点建立新的点击流路径树；

例如在会话S1中，当以A的点击流数据进行匹配时，匹配失败，以A为父节点建立新的点击流路径树。

其中，所述预设条件为子步骤S121中匹配停止的条件，可以包括：

匹配次数大于预设匹配阈值；

预设匹配阈值可以由本领域技术人员根据实际情况进行设定，本申请实施例对此不加以限制。在本申请实施例的一种优选示例中，预设匹配阈值为5000，当匹配次数大于5000时，可以认为是机械访问，即出于增加网站点击流量等原因而人为通过特定软件设定访问等方式机械地访问某个网站，是不正常的访问。

和/或，

当前点击流数据与匹配的点击流数据的点击时间之差大于第二预设时间阈值。其中，第二预设时间阈值用于判断子步骤S121中的匹配是否停止。

同样，第二预设时间阈值可以由本领域技术人员根据实际情况进行设定，本申请实施例对此不加以限制。在本申请实施例的一种优选示例中，第二预设时间阈值为30分钟。

在本申请实施例的另一种优选示例中，子步骤S12进一步还可以包括如下子步骤：

子步骤S124，去除孤点；所述孤点为只有一个节点的点击流路径树。

点击流路径树在会话中的匹配完成后才确定。孤点为只有一个节点的点击流路径树，即该节点即是该点击流路径树的父节点，又是该点击流路径树的子节点。

对于会话S1，点击流路径树的一种表达方式如图2所示。

需要说明的是，点击流路径树也可以采用其他表示。

例如，点击流路径树的表示（前序遍历输出）可以为：

l＝{＜v₁,p₁,t₁＞...,＜v_i,p_i,t_i＞,...,＜v_ln,p_ln,t_ln＞} 公式①

其中，l为点击流路径树，该点击流路径树共有ln个节点，其中＜v_i,p_i,t_i＞为第i条点击流数据，1≤i≤ln，ln和i均是正整数，v_i为当前网页，p_i为访问v_i的来源网页，t_i为访问v_i的停留时间。特别地，i＝1时的节点为l的根节点，其无来源网页（即父节点），可以用“-”表示来源网页，即p₁＝"-"。

此时，点击流路径树的路径并不是直观的表达。

对于会话S1的公式①表达可以为：

l＝{＜A,-,5＞,＜B,A,2＞,＜C,B,3＞,＜E,C,7＞,＜D,B,3＞,＜C,D,1＞,＜E,C,5＞}

子步骤S13，合并点击流路径树；

合并点击流路径树，再配置权重，构建用户访问网页的点击路径的带权重的有向图模型。

需要说明的是，合并点击流路径树是针对所有节点而言的，具有相同节点的点击流路径树，可以按照相同节点进行合并，没有相同节点的点击流路径树，合并更加简单，不需要考虑树与树之间的关系，是合并点击流路径树的特例。

例如，在会话S2，有三棵点击流路径树，分别是A→B→C→D、A→C→D和H→J，其中，A-D、H、J分别代表不同的网页，箭头代表路径。

对于A→B→C→D和A→C→D可以合并，而H→J则在合并前后的形式是一样的，合并结果如图3所示。

对于点击流路径树的分析统计可以从两个角度出发，一是用户网页的点击情况，一是用户网页的点击流向，前者为点，后者为边。

用户网页的点击情况一般统计用户在某一网页的pυ（Page View，网页浏览量）数，以及该网页的平均停留时间。直观上，用户访问网页的pυ数与停留时间的时长都可以直接反应用户对该网页的兴趣程度。pυ数越大，网页停留时间越长，可以说明用户对该网页越感兴趣。

用户网页的点击流向可以用于描述用户的点击趋势以及比重。而用户可能在浏览该网页之后直接关闭，也有可能点击到这个页面或者那个页面。

子步骤S14，按照平均停留时间为合并后的节点配置分级权重；其中，所述平均停留时间为所述多条点击流数据中所述节点的停留时间之和与所述节点的总浏览pυ量之比；

子步骤S15，按照浏览量pυ数为合并后的路径配置比例权重；其中，所述访问比例权重为所述节点对应的来源网页点击到所述节点的浏览pυ量与所述节点对应的来源网页的总浏览pυ量之比；

例如，网页N的总浏览pυ量为10，用户从网页N（当前网页M的来源网页）点击链接跳转到网页M的次数为5次，即点击到当前网页M的浏览pυ量为5次，则指示来源网页N到当前网页M的路径的比例权重为5/10=0.5。

需要说明的是，当前网页的来源网页可以有多个，但是每个来源网站与当前网站的路径分别只有一条，即每条路径对应一个确定的当前网页及其来源网页。

对用户的网页点击情况可以描述为：

U = {. . ., < u_{i}, {pv}_{i}, {\overset{&OverBar;}{t}}_{i} >, . . ., < u_{j}, {pv}_{j} {\overset{&OverBar;}{t}}_{j} >, . . .}

公式②

其中，u_i为第i个当前访问网页，u_i和i均为正整数，pv_i为u_i的总浏览量，为访问u_i的平均停留时间。

和，

T={...,＜u_i,u_j,pv_ij＞,...,＜u_i,u_k,pv_ik＞,...,＜u_j,u_k,pv_jk＞,....} 公式③

其中，＜u_i,u_j,pv_ij＞表示从来源网页u_j点击到当前网页u_i的pυ数为pv_ij。

对于会话S1，采用公式②进行表达，可以为：

U={＜u_A,1,5＞,＜u_B,1,2＞,＜u_C,2,2＞,＜u_D,1,3＞,＜u_E,2,6＞}

采用公式③进行表达，可以为：

T={＜u_A,u_B,1＞,＜u_B,u_C,1＞,＜u_C,u_E,2＞,＜u_D,u_C,1＞}

考虑到每一个用户的阅读速度不同，有一些用户阅读的快，有一些用户阅读的慢。因此按平均停留时间的加权按用户进行分级，分K个级别（K为正整数），优选地，K的取值为7或者13。

则可以将公式②转换表达为：

U={...,＜u_i,pv_i,λ_i＞,...，＜u_j,pv_j,λ_j＞,...} 公式④

其中，u_i为第i个当前访问网页，pv_i为u_i的总浏览量，λ_i为u_i的分级权重。

在本申请实施例的一种优选示例中，所述子步骤S14进一步可以包括如下子步骤：

子步骤S141，将所述节点按照平均停留时间排序后划分多个区间；

子步骤S142，为每个区间配置对应的访问分级权重。

对于会话S1生成的点击流路径树，可以分成K个级别，其中，K取值为5。分别配置分级权重：λ₁＝1.02,λ₂＝1.01,λ₃＝1,λ₄＝0.99,λ₅＝0.98。

在具体实现中，将点击流数据按照平均停留时间进行从大到小排序，并等分为5个区块，第一区块的网页停留级别为λ₁，第二区块的网页停留级别为λ₂，以此类推。

此时，会话S1采用公式④表达，可以为：

U={＜u_A,1,1.01＞,＜u_B,1,0.99＞,＜u_C,2,0.99＞,＜u_D,1,1＞,＜u_E,2,1.02＞}

在配置比例权重时，考虑当前访问网页u_i可能是点击流路径树的子节点，存在直接访问的情形，所以Σpvi_j≤pv_j。pv_ij/pv_j即为u_j点击分流到u_i的比例，记为δ_ij，即比例权重。其中，pv_j为u_j的总浏览量，则δ_ij≤1。特殊的，当i＝j时，为u_i跳转到自身u_i的比重，记为δ_ii。

子步骤S16，生成权重-有向图；

在本申请实施例的一种优选示例中，可以结合公式③和公式④转换对用户网页点击情况的表达：

U={...,＜u_i,λ_i＞,...,＜u_j,λ_j＞,...} 公式⑤

其中，＜u_i,λ_i＞为用户对网页u_i的点击情况，u_i为当前访问网页，λ为分级权重，u_i是第i个当前访问网页，λ_i为u_i的分级权重；

和，

T={...,＜u_i,u_j,δ_ij＞,...,＜u_i,u_k,δ_ik＞,...} 公式⑥

其中，＜u_i,u_j,δ_ij＞为用户从网页u_j点击到网页u_i的一个点击流向，u_i为当前网页，u_j为来源网页，δ_ij为比例权重，δ_ij表示从来源网页u_j的点击中有δ_ij的比例访问了当前网页u_i。

由公式⑤和公式⑥可以绘制出用户-网页权重有向图；例如，会话S1采用公式⑤进行表达，可以为：

U={＜u_A,1.01＞,＜u_B,0.99＞,＜u_C,0.99＞,＜u_D,1＞,＜u_E,1.02＞}

会话S1采用公式⑥进行表达，可以为：

T＝{＜u_A,-,1＞,＜u_B,u_A,1＞,＜u_C,u_B,0.5＞,＜u_D,u_B,0.5＞,＜u_C,u_D,1＞,＜u_E,u_C,1＞}

会话S1配置了分级权重和比例权重，即网页权重有向图如图4所示。

用户的点击流数据可以转换为公式⑤与公式⑤描述的带权重的有向图模型。对于不同的用户，可以得到不同的带权重的有向图。所以，计算用户的相关度，可以转换为带权重的有向图的相关度。

子步骤S17，提取与当前用户的公共路径最多的前Y个用户；其中，Y为正整数，所述公共路径为当前网页及其来源网页相同的路径；

在本申请实施例的一种优选示例中，Y=3N，其中，N为正整数。

参照图5，对会话S3的点击流路径树配置分级权重与比例权重，即为权重-有向图。与会话S1对比，会话S3与会话S1的权重-有向图存在三条公共路径：A→B、B→D和D→C。

子步骤S18，采用所述权重-有向图，计算当前用户与所述前Y个用户访问网页的路径相关度。

对于带权重的有向图的相关度的计算，可以首先转换为公共路径的个数的求值。对于不同用户而言，公共路径越多，权重-有向图的重叠部分越多，也就意味着用户的相关度越高；同样，公共路径的权重以及公共路径节点的权重越高，相关度越高。

在本申请实施例的一种优选示例中，可以通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度：

需要说明的是，公共路径在两个用户中可以具有不同的比例权重，公共路径指示的当前网页和来源网页在两个用户中也可以具有不同的分级权重。在计算时，可以按照比例权重和分级权重的值的大小计算即可，不必关注该值在哪个用户的权重-有向图中。

参照图4和图5，此两个用户的访问网页的路径相关度计算如下：

公共路径为：A→B、B→D和D→C

公共路径的最小权值计算为：0.5×1×0.99+0.5×0.99×1+0.5×1×0.99=1.485

公共路径的最小权值计算为：1×1.01×0.99+1×0.99×1.02+1×1.02×1.01=3.05

非公共路径为：图4上有B→C、C→E，图5上有D→A、A→C

图4上的非公共路径权值计算为：0.5×0.99×0.99+1×0.99×1.02=1.500

图5上的非公共路径权值计算为：0.5×1.02×1+0.5×1×1.01=1.015

所以图4与图5的相关度计算的结果为：

1.485/（1.500+1.015+3.05）=0.267

当然，上述用户访问路径的相似度计算方法只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它用户访问路径的相似度计算方法，例如余弦相关性计算、皮尔森相关性计算等等，本申请实施例对此不加以限制。

步骤103，提取与当前用户访问网页的路径相关度最高的前X个用户；其中，所述X为正整数；

在本申请实施例的一种优选示例中，X=2N，其中，N为正整数。

步骤104，针对所述前X个用户访问的网页的预置标签配置综合权重；

在具体实现中，可以设置网页标签库收集不同网页的标签信息，一个网页由一个或者多个标签组成，所述预置标签可以具有原始权重；

对其中某一个网页可以描述为标签项列表：

公式⑦

其中，网页共有个标签，σi为第i个标签，和i均为正整数，wp_i为σ_i的原始权重。

一个标签项可以由标签及标签权重两部分构成，其中，标签可以为网页类型、网页关键词、网页类目、ID等等，网页类型可以为首页、导航页、搜索页、产品首页、公司首页、产品页、订单页、登录页等；ID可以是产品ID，公司ID等，网页类目可以是产品类目、公司类目、OFFER类目，比如所问的化妆品类目等。

当然，上述标签只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它标签，只要能够标识网页的特性即可，本申请实施例对此不加以限制。

以某一个出售路由器产品的电子商务的网页为例，对其可以引入标签为：

产品型号=DIR-616

产品品牌=D-Link

网页类目=路由器

产品ID=22540068533

卖家名称=dlink流翔专卖店

其中，等号左边为标签名称，等号右边为标签内容。

则该网页可以表示为：

其中，标签为产品ID与产品型号的原始权重为1，标签为产品品牌的原始权重为0.5，标签为路由器的原始权重为0.3，标签为卖家名称的原始权重为0.7。

当然，原始权重可以由本领域技术人员根据实际情况设定，本申请实施例对此不加以限制。

所述网页可以具有网页权重；

每一个u_i对应的一个网页，该网页可以由网页权重与网页标签项列表标识：

公式⑧

其中，w_i为该网页的网页权重， _i为该网页的标签项列表。

所述综合权重可以通过以下公式获取：

\overset{&RightArrow;}{w} = Σ_{i = 0}^{σk} (w_{i} \times {p&upsi;}_{i} {wp}_{i}) / Σ_{i = 0}^{σk} {p&upsi;}_{i}

步骤105，采用所述标签及其综合权重计算当前用户与所述前X个用户之间的相关度。

将公式⑧代入公式⑦中，并结合公式②可以得到k维标签权重向量空间：

其中，k为正整数，σ为某一标签，为该标签的综合权重。

k维标签权重向量空间可以为标签空间以权重为坐标的向量表述，不同用户的相关度计算可以换算为标签权重向量空间的距离。

在本申请的一种优选实施例中，当前用户与所述前X个用户之间的相关度可以通过以下公式获取：

当然，上述用户的相似度计算方法只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它用户的相似度计算方法，例如余弦相关性计算、皮尔森相关性计算等等，本申请实施例对此不加以限制。

用户相关度在一定程度上表达了用户之间兴趣爱好的相似程度，用户之间的相关度越大，其兴趣爱好相似程度越高。

参照图6，示出了本申请的一种基于用户行为信息的个性化推荐方法实施例的步骤流程图，具体可以包括如下步骤：

步骤601，获取用户信息，所述用户信息包括用户标识；

步骤602，根据所述用户标识确定与当前用户的相似度最高的Z个用户；其中，所述Z为正整数；

步骤603，针对所述Z个用户向当前用户进行推荐；

其中，所述相似度通过如下方式生成：

获取用户访问网页的点击流数据；所述点击流数据中包括当前网页的标签；

针对所述前X个用户的点击流数据中当前网页的标签配置综合权重；

采用所述标签及其综合权重计算当前用户与所述前X个用户之间的相关度。

在本申请实施例的一种优选示例中，Z=N，N为正整数。

本申请提取公共路径最多的前Y个用户计算用户的访问网页相关度，在提取访问网页相关度最高的前X个用户计算用户的相关度，最后提取用户相关度最高的前Z个用户进行推荐，通过层级选取具有代表性的数据进行计算，提高了计算的准确性，减少了数据处理量，减少了系统资源的占用。

在具体实现中，可以依据与当前用户相关度最高的X个用户，进行好友推荐、博客推荐、产品推荐等等。

本申请实施例可以依据预设的时间规则对收集到的用户的点击流数据计算用户之间的相关度，再将结果配置到相应的用户标识上。

其中，所述时间规则可由本领域技术人员根据实际情况进行设定，例如，可以是定期或不定期采用全部或部分用户的点击流数据计算用户之间的相关度，部分用户的点击流数据可以是一段或多段时间内收集的用户的点击流数据，本申请实施例对此不加以限制。

本申请实施例还可以设置黑名单和白名单，黑名单为当前用户设置的信任名单，白名单为当前用户设置的不信任名单，可以包括推荐的用户、推荐的博客、推荐的产品等等。

本申请实施例还可以采用用户针对对该用户进行推荐的反馈信息调整标签的原始权重，和/或，网页权重，和/或，分级权重。

对于本申请实施例而言，由于提取聚类空间特征维度的方法实施例与基于用户行为的特征提取的方法实施例基本相似，本申请实施例在此不再详述，相关之处参见同基于用户行为的特征提取的方法实施例的部分说明即可。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图7，示出了本申请的一种基于用户行为的特征提取系统实施例的结构框图，在本实施例中，所述系统可以包括如下模块：

点击流数据获取模块701，用于获取用户访问网页的点击流数据；

路径相关度计算模块702，用于依据所述点击流数据计算当前用户与其他用户访问网页的路径相关度；

第一提取模块703，用于提取与当前用户访问网页的路径相关度最高的前X个用户；其中，所述X为正整数；

综合权重配置模块704，用于针对所述前X个用户访问的网页的预置标签配置综合权重；

用户相关度计算模块705，用于采用所述预置标签及其综合权重计算当前用户与所述前X个用户之间的相关度。

在本申请的一种优选实施例中，所述点击流数据具有多条，每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间；所述路径相关度计算模块可以包括如下子模块：

点击流路路径树合并子模块，用于合并点击流路径树

比例权重配置子模块，用于为合并后的路径配置比例权重；

在本申请的一种优选实施例中，所述节点包括根节点和子节点，所述点击流路径树建立子模块可以进一步包括如下子模块：

其中，所述预设条件包括：

匹配次数大于预设匹配阈值；

和/或，

在本申请的一种优选实施例中，所述点击流路径树建立子模块进一步还可以包括如下子模块：

在本申请的一种优选实施例中，所述分级权重配置子模块进一步可以包括如下子模块：

区间配置子模块，为每个区间配置对应的访问分级权重。

在本申请实施例的一种优选示例中，所述权重-有向图可以包括：

U={...,＜u_i,λ_i＞,...,＜u_j,λ_j＞,...}

其中，＜u_i,λ_i＞为用户对网页u_i的点击情况，u_i为当前访问网页，λ为分级权重；

和，

T={...,＜u_i,u_j,δi_j＞,...,＜u_i,u_k,δ_ik＞,...}

在本申请的一种优选实施例中，所述标签具有原始权重，所述综合权重可以通过以下公式获取：

\overset{&RightArrow;}{w} = Σ_{i = 0}^{σk} (w_{i} \times {p&upsi;}_{i} {wp}_{i}) / Σ_{i = 0}^{σk} {p&upsi;}_{i}

在本申请的一种优选实施例中，所述当前用户与所述前X个用户之间的相关度可以通过以下公式获取：

参照图8，示出了本申请的一种基于用户行为的个性化推荐系统实施例的结构框图，在本实施例中，所述系统可以包括如下模块：

用户信息获取模块801，用于获取用户信息，所述用户信息包括用户标识；

用户确定模块802，用于根据所述用户标识确定与当前用户的相似度最高的Z个用户；其中，所述Z为正整数；

推荐模块803，用于针对所述Z个用户向当前用户进行推荐；

其中，所述相似度通过如下方式生成：

获取用户访问网页的点击流数据；

针对所述前X个用户访问的网页的预置标签配置综合权重；

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、移动设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理移动设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理移动设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理移动设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理移动设备上，使得在计算机或其他可编程移动设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程移动设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者移动设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者移动设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者移动设备中还存在另外的相同要素。

以上对本申请实施例所提供的一种基于用户行为的特征提取方法、一种基于用户行为特征提取的系统、一种基于用户行为的个性化推荐方法和一种基于用户行为的个性化推荐系统，进行了详细介绍，本文中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种基于用户行为的特征提取方法，其特征在于，包括：

获取用户访问网页的点击流数据；

针对所述前X个用户访问的网页的预置标签配置综合权重；

2.根据权利要求1所述的方法，其特征在于，所述点击流数据具有多条，每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间；所述依据所述点击流数据计算当前用户与其他用户访问所述网站的路径相关度的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述节点包括根节点和子节点，所述在每个会话中，采用所述当前网页及其来源网页建立点击流路径树的步骤包括：

其中，所述预设条件包括：

匹配次数大于预设匹配阈值；

和/或，

4.根据权利要求3所述的方法，其特征在于，所述在每个会话中，采用所述当前网页及其来源网页建立点击流路径树的步骤还包括：

去除孤点；所述孤点为只有一个节点的点击流路径树。

5.根据权利要求2所述的方法，其特征在于，所述按照平均停留时间为合并后的节点配置访问分级权重的步骤包括：

将所述节点按照平均停留时间排序后划分多个区间；

为每个区间配置对应的访问分级权重。

6.根据权利要求2所述的方法，其特征在于，所述权重-有向图包括：

U={...,＜u_i,λ_i＞,...,＜u_j,λ_j＞,...}

和，

T={...＜u_i,u_j,δi_j＞,...,＜u_i,u_k,δ_ik＞,_...}

7.根据权利要求2所述的方法，其特征在于，通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度：

8.根据权利要求1所述的方法，其特征在于，所述网页具有网页权重，所述预置标签具有原始权重，所述综合权重通过以下公式获取：

\overset{&RightArrow;}{w} = Σ_{i = 0}^{σk} (w_{i} \times {p&upsi;}_{i} {wp}_{i}) / Σ_{i = 0}^{σk} {p&upsi;}_{i}

9.根据权利要求8所述的方法，其特征在于，所述当前用户与所述前X个用户之间的相关度通过以下公式获取：

10.一种基于用户行为的个性化推荐方法，其特征在于，包括：

获取用户信息，所述用户信息包括用户标识；

针对所述Z个用户向当前用户进行推荐；

其中，所述相似度通过如下方式生成：

获取用户访问网页的点击流数据；

针对所述前X个用户访问的网页的预置标签配置综合权重；

11.一种基于用户行为的特征提取系统，其特征在于，包括：

12.根据权利要求11所述的系统，其特征在于，所述点击流数据具有多条，每一条点击流数据包括用户标识、当前网页、来源网页、点击时间和停留时间；所述路径相关度计算模块包括：

点击流路路径树合并子模块，用于合并点击流路径树；

比例权重配置子模块，用于为合并后的路径配置比例权重；

13.根据权利要求12所述的系统，其特征在于，所述节点包括根节点和子节点，所述点击流路径树建立子模块包括：

其中，所述预设条件包括：

匹配次数大于预设匹配阈值；

和/或，

14.根据权利要求13所述的系统，其特征在于，所述点击流路径树建立子模块还包括：

15.根据权利要求12所述的系统，其特征在于，所述分级权重配置子模块包括：

区间配置子模块，为每个区间配置对应的访问分级权重。

16.根据权利要求12所述的系统，其特征在于，所述权重-有向图包括：

U={...,＜u_i,λ_i＞,...,＜u_j,λ_j＞,...}

和，

T={...,＜u_i,u_j,δi_j＞,...,＜u_i,u_k,δ_ik＞,...}

17.根据权利要求12所述的系统，其特征在于，通过以下公式计算所述当前用户与所述前Y个用户访问网页的路径相关度：

18.根据权利要求11所述的系统，其特征在于，所述标签具有原始权重，所述综合权重通过以下公式获取：

\overset{&RightArrow;}{w} = Σ_{i = 0}^{σk} (w_{i} \times {p&upsi;}_{i} \times {wp}_{i}) / Σ_{i = 0}^{σk} {p&upsi;}_{i}

19.根据权利要求18所述的系统，其特征在于，所述当前用户与所述前X个用户之间的相关度通过以下公式获取：

20.一种基于用户行为的个性化推荐系统，其特征在于，包括：

推荐模块，用于针对所述Z个用户向当前用户进行推荐；

其中，所述相似度通过如下方式生成：

获取用户访问网页的点击流数据；

针对所述前X个用户访问的网页的预置标签配置综合权重；