CN109902214B

CN109902214B - 一种基于改进PageRank算法的用户偏好挖掘方法

Info

Publication number: CN109902214B
Application number: CN201910118231.5A
Authority: CN
Inventors: 雒江涛; 易伟; 戴文彬; 许国良
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-02-15
Filing date: 2019-02-15
Publication date: 2021-06-08
Anticipated expiration: 2039-02-15
Also published as: CN109902214A

Abstract

本发明涉及一种基于改进PageRank算法的用户偏好挖掘方法，利用用户的历史上网日志数据，通过改进的PageRank算法挖掘用户的偏好，能够提高用户偏好挖掘的准确率与召回率。该方法包括以下步骤：检查输入数据格式，提取用户上网过程中的兴趣点集合和上网时长集合；分析兴趣点集合和上网时长集合，确定用户访问兴趣点的频次、时长以及自转移参数；以兴趣点的频次、时长以及自转移参数为输入，通过自定义函数计算用户对兴趣点的关注度；将用户对兴趣点的关注度引入到PageRank算法中，计算每个兴趣点的IR值(兴趣点重要性得分，值域为0‑1)；对兴趣点的IR值进行迭代计算，当满足迭代终止条件时，输出所有兴趣点的IR值；最后选取IR值靠前的Top‑K个兴趣点作为用户偏好。

Description

一种基于改进PageRank算法的用户偏好挖掘方法

技术领域

本发明属于用户偏好挖掘技术领域，涉及一种基于改进PageRank算法的用户偏好挖掘方法。

背景技术

用户偏好挖掘是用户画像领域的重要研究内容。用户画像是用户真实数据的虚拟代表，是具有相似背景、兴趣、行为的用户群在使用某一产品或者服务时所呈现出的共同特征集合。用户偏好挖掘是用户画像中不可缺少的一部分，通过挖掘用户偏好能使用户画像更加完善与饱满，能为行业进行精准营销、产品的设计、规划发展以及制定发展策略提供数据支撑。

目前用户偏好挖掘主要是通过分析用户的上网日志数据，寻找用户的关注点，从而实现偏好的挖掘。挖掘的方法有频次分析法、基于关联规则的Apriori算法等。其中频次分析法，是通过统计用户上网过程中访问兴趣点的频次，筛选频次高的兴趣点作为用户偏好，这种分析方法很简单，但是没有考虑兴趣点之间的可能存在的关系；基于关联规则的Apriori算法是通过在大规模的兴趣点中，通过建立频繁项集和关联规则，频繁项集是指经常一并出现的兴趣点集合，关联规则可利用频繁项集通过可信度筛选获得，最终根据用户经常访问的兴趣点和关联规则挖掘用户的偏好，该算法基于大规模数据集构建关联规则，但是由于用户是独立的个体，一项规则不能适用于所有用户，具有局限性。

对此，本发明提供了一种基于改进PageRank算法的用户偏好挖掘方法。在经典的PageRank算法中，融入了用户访问兴趣点的频次、时长以及兴趣点自转移三个因子，既考虑了用户上网过程中兴趣点的转移过程，又考虑了用户对兴趣点的关注度，能提高用户偏好挖掘的准确率和召回率。

发明内容

针对现有方法的缺陷和不足，本发明提出了一种基于改进PageRank算法的用户偏好挖掘方法，利用用户的上网日志数据，进行用户偏好的挖掘，能提高用户偏好挖掘的准确率和召回率。

为达到上述目的，本发明提供如下技术方案：

一种基于改进PageRank算法的用户偏好挖掘方法，包括如下步骤：

步骤S1：检查输入数据格式：将用户上网日志数据按照产生的时间顺序，解析为兴趣点集合[P₁,P₂,P₃……P_m]和上网时长集合[T₁,T₂,T₃……T_m]，上网日志数据中的一条URL对应一个兴趣点以及上网时长；

步骤S2：分析兴趣点集合，获取用户上网过程中访问不同兴趣点的频次f_i，对每个兴趣点的频次利用最大最小值归一化方法进行归一化，得到兴趣点的访问频次参数F_i；

步骤S3：分析兴趣点集合，获取用户上网过程中不同兴趣点的自转移参数K_i，自转移是指用户从兴趣点A转移到兴趣点A，即用户在访问兴趣点A时发生了一次自转移；

步骤S4：分析上网时长集合，统计用户访问不同兴趣点的时长g_i，对每个兴趣点的时长利用最大最小值归一化方法进行归一化，得到兴趣点的访问时长参数G_i；

步骤S5：利用兴趣点的访问频次参数F_i、兴趣点的访问时长参数G_i、兴趣点的自转移参数K_i，计算兴趣点关注度UA值；

步骤S6：兴趣点IR值的初始化：以兴趣点P_i为例，设置链接值IR_L(P_i)的初始值为1/N,其中N表示上网过程中不同兴趣点的个数，并计算兴趣点IR值；

步骤S7：兴趣点IR值的迭代：更新兴趣点链接值IR_L(P_i)，并依据步骤S6重新计算兴趣点IR值；

步骤S8：对比迭代前后两次IR值，判断是否满足迭代终止条件，如满足条件则输出不同兴趣点的IR值，不满足则继续迭代；

步骤S9：按照兴趣点的IR值对兴趣点排序，选取前Top-K个兴趣点作为用户的偏好。

进一步，步骤S3所述的自转移参数K_i，计算公式如下：

其中α为设置的参数，x表示兴趣点P_i最大连续自转移次数。

进一步，步骤S5所述的UA值，其计算公式如下：

UA(P_i)＝max(F_i,G_i,K_i)

其中F_i为步骤S2所述的兴趣点访问频次参数，G_i为步骤S4所述的兴趣点访问时长参数，K_i为步骤S3所述的兴趣点自转移参数。

进一步，步骤S6所述的IR值，其计算公式如下：

IR(P_i)＝δ×IR_L(P_i)+ε×UA(P_i)

其中δ和ε为设置的参数，IR_L(P_i)为步骤S7所述的兴趣点链接值，UA(P_i)为步骤S5所述的兴趣点关注度。

进一步，步骤S7更新兴趣点链接值IR_L(P_i)，公式如下：

其中d是阻尼系数，Z(P_i)表示转移到兴趣点P_i的兴趣点集合，Link(P_j)表示集合Z(P_i)的大小；

并依据步骤S6中的公式重新计算兴趣点IR值。

进一步，步骤S8中迭代终止条件为：

1)迭代前后每个兴趣点的IR值误差小于自定义误差阈值б；

2)迭代次数超过了自定义的迭代次数阈值。

本发明的有益效果在于：用户的上网过程中产生的连续地多条上网日志数据并不是完全不相关的，前后访问的兴趣点的关系可能为属种关系、交叉关系、全异关系等，同时用户对每个兴趣点的访问时长、频次都不相同。本发明提供的基于改进PageRank算法的用户偏好挖掘方法，利用PageRank算法在排序时考虑被排序内容之间存在的相互链接关系的特性，并融入了用户访问兴趣点的时长、频次、自转移三个因子，挖掘用户的偏好，提高了用户偏好挖掘的准确率和召回率。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为基于改进PageRank算法的用户偏好挖掘方法流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

参照图1，一种基于改进PageRank算法的用户偏好挖掘方法，包括以下步骤：

步骤S1：检查输入数据格式：将用户上网日志数据按照产生的时间顺序，解析为兴趣点(Points of Interest)集合[P₁,P₂,P₃……P_m]和上网时长集合[T₁,T₂,T₃……T_m]，上网日志数据中的一条URL对应一个兴趣点以及上网时长；

步骤S2：分析兴趣点集合，获取用户上网过程中访问不同兴趣点的频次f_i，对每个兴趣点的频次利用最大最小值归一化方法进行归一化，得到兴趣点的访问频次参数F_i，计算公式如下：

其中f_i表示上网过程中访问兴趣点P_i的频次，min(f)表示所有兴趣点被访问的最少频次，max(f)表示所有兴趣点被访问的最多频次。

步骤S3：分析兴趣点集合，获取用户上网过程中不同兴趣点的自转移参数K_i，自转移是指用户从兴趣点A转移到兴趣点A，即用户在访问兴趣点A时发生了一次自转移，其计算公式如下：

其中α为设置的参数，x表示兴趣点P_i最大连续自转移次数；

步骤S4：分析上网时长集合，统计用户访问不同兴趣点的时长g_i，对每个兴趣点的时长利用最大最小值归一化方法进行归一化，得到兴趣点的访问时长参数G_i，其计算公式如下：

其中g_i表示上网过程中访问兴趣点P_i的时长，min(g)表示所有兴趣点被访问的最短时长，max(g)表示所有兴趣点被访问的最长时长；

步骤S5：利用兴趣点的访问频次参数F_i、兴趣点的访问时长参数G_i、兴趣点的自转移参数K_i，计算兴趣点关注度UA值，计算公式如下：

UA(P_i)＝max(F_i,G_i,K_i)

步骤S6：兴趣点IR值的初始化：以兴趣点P_i为例，设置链接值IR_L(P_i)的初始值为1/N,其中N表示上网过程中不同兴趣点的个数，并计算兴趣点IR值，其计算公式如下：

IR(P_i)＝δ×IR_L(P_i)+ε×UA(P_i)

其中δ和ε为设置的参数。

步骤S7：兴趣点IR值的迭代：更新兴趣点链接值IR_L(P_i)，公式如下：

其中d是阻尼系数，Z(P_i)表示转移到兴趣点P_i的兴趣点集合，Link(P_j)表示集合Z(P_i)的大小。

并依据步骤S6中的公式重新计算兴趣点IR值。

步骤S8：对比迭代前后两次IR值，判断是否满足迭代终止条件，如满足条件则输出不同兴趣点的IR值，不满足则继续迭代。迭代终止条件为：

1)迭代前后每个兴趣点的IR值误差小于自定义误差阈值б；

2)迭代次数超过了自定义的迭代次数阈值。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于改进PageRank算法的用户偏好挖掘方法，其特征在于：包括如下步骤：

IR(P_i)＝δ×IR_L(P_i)+ε×UA(P_i)

其中δ和ε为设置的参数，IR_L(P_i)为步骤S7所述的兴趣点链接值，UA(P_i)为步骤S5所述的兴趣点关注度；

并依据步骤S6的公式重新计算兴趣点IR值；

2.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法，其特征在于：步骤S3所述的自转移参数K_i，计算公式如下：

其中α为设置的参数，x表示兴趣点P_i最大连续自转移次数。

3.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法，其特征在于：步骤S5所述的UA值，其计算公式如下：

UA(P_i)＝max(F_i,G_i,K_i)

4.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法，其特征在于：步骤S8中迭代终止条件为：

1)迭代前后每个兴趣点的IR值误差小于自定义误差阈值б；

2)迭代次数超过了自定义的迭代次数阈值。